涉17万个视频!英伟达等巨头被曝违规利用 YouTube数据练习 模子

  科技巨头被曝利用 未经授权的YouTube内容练习 AI(人工智能)模子 。

  本地 时间7月16日,据外媒报道,包罗 苹果、英伟达、Salesforce和Anthrophic在内的一些大型科技公司,被曝在练习 AI模子 时利用 了来自谷歌旗下视频网站YouTube的未授权数据。这些公司利用 了一个由第三方提供的数据集,此中 包罗 从YouTube上抓取的大量视频字幕文本,违背 了YouTube克制 从平台上未经答应 抓取内容的规定。

  报道指出,这些科技公司在练习 AI模子 时都利用 了一个名为“YouTube Subtitles(YouTube字幕)”的数据集,巨细 为5.7GB,包罗 4.89亿个单词,来自Youtube上高出 4.8万个频道中的17.35万个视频。该数据集由视频字幕的纯文本构成 ,包罗 视频博主上传的部分 和Youtube主动 转录的文本,除了英语外,通常还附带日语、德语和阿拉伯语等语言的翻译。

  非营利性构造 EleutherAI是争议数据集的创作者,公司尚未对此事作出回应。根据官网先容 ,EleutherAI的目标 是“低落 AI开辟 的门槛,通过练习 和发布模子 ,让各人 打仗 到尖端的AI技能 ”。此前,EleutherAI发布了名为“Pile”的数据汇编,此中 的大部分 数据集都是对公众开放的,包罗 YouTube Subtitles。

  资料表现 ,在苹果于本年 4月发布端侧小模子 OpenELM模子 的几周之前,公司就利用 了Pile举行 练习 。不外 ,值得留意 的是,苹果本身 并没有下载这些数据。因此,从技能 层面来说,是EleutherAI违背 了YouTube的利用 条款。

  AI初创公司Anthropic的一位发言人证明 ,Pile数据集已被用于练习 公司的天生 式AI助手Claude,而YouTube的相干 条款仅涉及“直接利用 其平台”,发起 与Pile的原作者讨论任何违背 YouTube服务条款的举动 。苹果、英伟达、Salesforce等其他公司尚未对此事作出回应。

  此次变乱 影响到的创作者包罗 Marques Brownlee、MrBeast和PewDiePie等着名 博主,以及《纽约时报》、英国广播公司(BBC)和美国ABC News等大型消息 出书 商。别的 ,数据会合 的一些质料 宣传了“地平说”等诡计 论,乃至 还包罗 了已被删除的视频的内容。如今 ,Pile已从官方下载网站上下架,但仍可通过文件共享服务访问。

  对此,着名 科技博主Marques Brownlee在X(原推特)平台上表现 :“苹果从几家公司获取了他们AI所需的数据,此中 一家从YouTube视频中抓取了大量数据/转录文本,包罗 我的视频。从技能 上来说苹果没有‘犯错’,他们没有主动 抓取数据。但这将是一个长期 存在的题目 。”

涉17万个视频!英伟达等巨头被曝违规利用
YouTube数据练习
模子
 时时快讯

  固然 苹果和其他公司大概 是利用 了公开的数据集,并没有违规举动 ,但此次变乱 让人们又一次关注到AI练习 背后的数据题目 。本年 年初,YouTube的母公司谷歌被曝利用 该平台的视频来练习 旗下模子 ,谷歌当时 回应称,这种举动 没有违背 平台与创作者的协议。

  本年 3月,OpenAI首席技能 官米拉·穆拉蒂(Mira Murati)在担当 采访时还曾对文生视频模子 Sora的练习 数据泉源 暗昧 其词。4月,YouTube首席实行 官尼尔·莫汉(Neal Mohan)在采访中表现 ,他并没有直接证据可以或许 证明 OpenAI确实利用 了YouTube的视频来美满 其文生视频AI工具Sora,假如 真的利用 了,那就“显着 违背 ”了YouTube平台的利用 条款。

联系我们

在线咨询:点击这里给我发消息