
Reddit针对Perplexity AI提起诉讼:揭示AI时代数据版权新挑战
核心要点:
- 诉讼背景: Reddit对Perplexity AI提起诉讼,指控其未经授权抓取和使用Reddit内容以训练AI模型并生成回答。此举发生在Reddit积极探索将其平台数据授权给AI公司以获取收益的背景下。
- 核心指控: Reddit声称在2024年5月曾向Perplexity发出停止抓取的律师函。尽管Perplexity当时回应称未利用Reddit内容训练AI模型,并承诺遵守
robots.txt协议,但此后Perplexity平台引用Reddit内容的数量反而显著增加。Reddit进一步指出,当其特意发布了一个仅供Google抓取的内容时,Perplexity在数小时内便“再现”了该内容,这表明Perplexity可能通过抓取Google搜索结果(SERPs)的方式间接获取并使用了Reddit内容。 - “数据洗钱”指控: Reddit首席法务官本·李(Ben Lee)严厉指出,当前的AI公司正处于争夺高质量人类内容的“军备竞赛”中,这催生了一种“工业规模的‘数据洗钱’经济”。他认为,抓取者通过规避技术保护手段窃取数据,并将其出售给急需训练材料的客户。Reddit因其作为“最大、最具活力的用户对话集合之一”而成为主要目标。
- 共谋行为: 诉讼明确将Oxylabs UAB(立陶宛数据抓取公司)、AWM Proxy(前俄罗斯僵尸网络)和SerpAI(一家公开宣传其规避策略的公司)列为被告。Reddit指控这些实体是“数据洗钱”行为的典型代表,它们通过伪装身份、隐藏位置和伪装网络抓取工具,从Google搜索中窃取Reddit内容。Perplexity被指是其中至少一家抓取公司的“自愿客户”,宁愿购买窃取数据,也不愿与Reddit达成合法协议。
AI时代知识产权与数据使用的前瞻性思考
本次诉讼标志着内容平台与AI技术提供商之间关于数据使用权和知识产权的冲突进一步升级。随着AI技术对海量数据的依赖加深,如何平衡创新发展与内容创作者及平台权益保护,已成为全球关注的焦点。Reddit的举动预示着未来可能会有更多内容所有者采取法律行动,以捍卫其数字资产的价值。
行业趋势:
- 数据授权模式: 越来越多的内容平台,包括Reddit自身,正寻求将其高质量内容授权给AI公司,建立新的商业模式。这表明内容数据在AI时代具有显著的商业价值。
- 法律与技术博弈: 法律诉讼是内容平台对抗未经授权数据抓取的主要手段之一。同时,
robots.txt等技术协议的有效性及其局限性,也促使各方重新审视数据保护策略。 - 透明度与合规性: 此次事件也再次强调了AI公司在数据来源方面的透明度和合规性建设的重要性,尤其是在使用第三方内容进行模型训练和应用时。
Reddit此次诉讼不仅关乎其自身权益,更深远地触及了AI发展伦理、数据产权界定以及数字内容经济的未来走向。全球科技界正密切关注此案的进展,其结果或将为未来AI与内容产业的合作与竞争模式提供重要参考。







