AI训练数据争端：Reddit 起诉Anthropic涉嫌大规模内容抓取

本周三，在线论坛Reddit在旧金山高等法院起诉人工智能公司Anthropic，指控其违反合同条款、绕开技术壁垒，抓取用户生成的内容。

诉状称，Anthropic使用爬虫程序收集Reddit内容的行为，违反了Reddit的用户协议，并构成加州法律下的不公平竞争。Reddit指控Anthropic在未经用户同意的情况下，故意使用这些数据训练其人工智能模型。

该诉讼进一步指出，尽管Anthropic于2024年曾公开声称在收到投诉后已限制其内容收集爬虫的活动，但此举并非真诚。诉状提到了2024年7月维修社区网站iFixit发布的报告。该报告称Anthropic的爬虫程序曾在一天内访问其网站超过一百万次。当时，包括Anthropic在内的主要AI公司均表示其爬虫会尊重网站通过robots.txt文件设置的访问限制指令。虽然遵守robots.txt并非强制性法律义务，但网站可将其作为不当行为的证据。Reddit认为Anthropic未能遵守这些限制，但未具体说明2024年7月之后该公司的违规实例。

Reddit强调其已与包括OpenAI、谷歌、Sprinklr和Cision在内的多家公司达成内容授权协议。这些协议旨在允许AI公司合法使用Reddit内容进行模型训练，同时尊重用户删除帖子的选择权。然而，Reddit表示Anthropic拒绝参与此类授权谈判。

Reddit在诉状中称，其检测到Anthropic在明显违反Reddit条款且无视多次停止要求的情况下，通过自动化程序访问或试图访问Reddit内容至少10万次。该公司试图通过上述行为持续不断地榨取Reddit的价值，与此同时无视了法律和道德边界。

Reddit的一位发言人表示，公司相信开放互联网（Open Internet），但这并不意味着Anthropic有权非法抓取Reddit内容、利用其牟取数十亿美元的利润，并且无视用户的权利和隐私。

Anthropic方面则对Reddit的指控予以否认。公司发言人表示：“我们不同意Reddit的指控，并将积极为自己辩护。”

此次诉讼发生之际，AI 公司对网络数据的需求激增，而网站所有者则日益关注其内容被用于训练模型的方式以及相关的补偿和用户隐私问题。Reddit在2024年5月与OpenAI签署了内容授权协议。并且，在其2025年第一季度财报电话会议中，首席执行官Steve Huffman强调了新相关信息的持续供应对搜索和AI公司的重要性，并将内容授权视为其业务战略的一部分。

上一篇：爱立信与摩托罗拉达成和解协议

Eight Mile版权方指控Meta侵权，索赔最高达1.09亿美元下一篇：