AI训练数据争议:英伟达在版权与合规性的边界探索
作者: CBISMB
责任编辑: 张金祥
来源: ISMB
时间: 2024-08-06 12:00
关键字: 英伟达
浏览: 1
点赞: 0
收藏: 0
英伟达被指挥在AI训练过程中涉嫌窃取大量受版权保护内容的报道引发了广泛关注,英伟达被指要求员工从YouTube、Netflix等平台下载视频,用于其商业AI项目的开发,包括Omniverse 3D世界生成器、自动驾驶汽车系统和“数字人”等产品。

面对指控,英伟达方面迅速做出回应,坚称其研究活动“完全符合版权法的条文和精神”。公司发言人强调,知识产权法主要保护特定的表达方式,而非事实、想法、数据或信息本身。因此,NVIDIA将自身行为比作个人从多种来源获取事实、想法等,并据此进行个人表达的过程,试图以此证明其合法性。
YouTube方面明确表示,使用其平台上的视频内容训练AI模型将“明显违反”其服务条款。YouTube政策沟通经理在给Engadget的信中重申了这一点,指出此类行为不受平台欢迎。
报道还指出英伟达在数据抓取过程中的一些具体做法,如使用具有轮换IP地址的虚拟机来下载内容,以避免被YouTube等平台封禁。这一做法进一步加剧了关于其合规性的质疑。
英伟达所使用的部分数据集原本仅被标记为可用于学术(或非商业)用途。例如,HD-VG-130M数据集包含1.3亿个YouTube视频,其使用许可明确指定仅用于学术研究。然而,英伟达却声称这些数据同样适用于其商业AI产品的开发,这一行为挑战了数据使用的既定边界。