Anthropic因无视robots.txt协议引发争议

作者： CBISMB

责任编辑：张金祥

来源： ISMB

时间： 2024-07-29 13:25

点赞： 57

收藏： 5

Anthropic因其大型语言模型ClaudeBot无视多个网站的robots.txt协议，频繁抓取数据而引发广泛关注。Freelancer和iFixit等知名网站纷纷指责Anthropic的行为不仅违反了他们的使用条款，还严重影响了网站的正常运营。

Freelancer首席执行官Matt Barrie表示，Anthropic的ClaudeBot在短短四小时内对其网站进行了350万次访问，这是“迄今为止最激进的抓取工具”。这种高频次的访问不仅导致网站速度变慢，还影响了Freelancer的正常业务运营和收入。iFixit首席执行官Kyle Wiens也在推特上控诉，Anthropic的机器人在24小时内对其服务器进行了近百万次访问，不仅未付费获取内容，还占用了宝贵的开发运营资源。

早在今年6月，另一家人工智能公司Perplexity也因无视robots.txt协议被抓取数据而受到指责。随着事件的发展，越来越多的网站和内容发布商开始关注并报告类似问题。据TollBit初创公司透露，绕过robots.txt协议的不仅仅是Perplexity，OpenAI和Anthropic等人工智能巨头也存在类似行为。

面对指责，Anthropic公司回应称，他们尊重robots.txt协议，并且其爬虫在检测到相关信号时会停止抓取活动。然而，这一说法并未完全平息争议。许多网站管理员表示，Anthropic的爬虫活动过于激进，已经超出了合理的数据收集范畴。

人工智能公司使用爬虫从网站收集内容以训练生成式人工智能技术已成为行业常态。然而，这种行为也引发了多起版权诉讼。为了防止更多法律纠纷的发生，OpenAI等公司已经开始与出版商和网站达成协议，以获得合法的内容许可。目前，OpenAI已经与新闻集团、Vox Media、英国《金融时报》和Reddit等建立了合作关系。

对于iFixit等网站来说，虽然他们愿意就商业用途的内容许可进行谈判，但前提是人工智能公司必须尊重他们的使用条款和robots.txt协议。Wiens在推特上表示，他愿意与Anthropic就内容许可问题进行沟通，但前提是Anthropic必须停止无视协议的行为。此次事件再次引发了业界对于人工智能公司数据抓取行为的关注和讨论。如何在保护网站权益和推动人工智能技术发展之间找到平衡点，成为了亟待解决的问题。

©本站发布的所有内容，包括但不限于文字、图片、音频、视频、图表、标志、标识、广告、商标、商号、域名、软件、程序等，除特别标明外，均来源于网络或用户投稿，版权归原作者或原出处所有。我们致力于保护原作者版权，若涉及版权问题，请及时联系我们进行处理。

Anthropic因无视robots.txt协议引发争议

相关推荐

智库专家

解决方案