为训练AI,OpenAI等科技巨头花式淘数据 为训练AI,OpenAI等科技巨头花式淘数据
admin
2024-04-08 07:59:04
0

来源:环球时报

【环球时报特约记者 甄翔】《纽约时报》6日披露了科技公司训练人工智能的秘密——利用语音识别工具转录视频网站YouTube上的视频,形成对话文本数据,供其最新的AI学习。这是一条违反法律的“捷径”。


报道称,早在2021年年底,OpenAI就面临培训AI模型的数据源几乎陷入枯竭的境地。该公司铤而走险,在明知YouTube母公司谷歌禁止用工具提取该平台内容的情况下,转录了100多万条视频并生成GPT-4模型的学习材料,OpenAI创始人之一布罗克曼也参与其中。讽刺的是,谷歌得知OpenAI的行为却并未制止,因为其也在提取YouTube平台内容训练AI模型。

《纽约时报》援引消息人士的话表示,这可能侵犯视频版权,因为它们属于创作者。尽管如此,越来越多的科技公司冒着面临诉讼的风险也要“走捷径”。报道称,根据内部会议记录,Meta公司商定从互联网上收集受版权保护的数据,因为与出版商、艺术家、音乐家和新闻行业就版权内容谈判太花时间。

报道称,领先的AI模型需要从涵盖多达3万亿字的数字文本池中学习。有分析称,预计互联网上现有可供培训AI模型的数据最快到2026年就会耗尽。

《纽约时报》援引内部人士的消息称,谷歌法律部门已经要求起草新的政策,扩大该公司对消费者数据的用途。Meta的情况更严峻,其旗下脸书平台不是人们撰写文章的地方,可用数据不多。报道称,在一次讨论中,Meta高管谈到在非洲聘请承包商来汇总各种小说和非小说的文本摘要。Meta全球合作与内容副总裁格鲁丁表示:“唯一阻碍我们达到ChatGPT水平的因素就是数据量。”

相关内容

热门资讯

linux入门---制作进度条 了解缓冲区 我们首先来看看下面的操作: 我们首先创建了一个文件并在这个文件里面添加了...
C++ 机房预约系统(六):学... 8、 学生模块 8.1 学生子菜单、登录和注销 实现步骤: 在Student.cpp的...
A.机器学习入门算法(三):基... 机器学习算法(三):K近邻(k-nearest neigh...
数字温湿度传感器DHT11模块... 模块实例https://blog.csdn.net/qq_38393591/article/deta...
有限元三角形单元的等效节点力 文章目录前言一、重新复习一下有限元三角形单元的理论1、三角形单元的形函数(Nÿ...
Redis 所有支持的数据结构... Redis 是一种开源的基于键值对存储的 NoSQL 数据库,支持多种数据结构。以下是...
win下pytorch安装—c... 安装目录一、cuda安装1.1、cuda版本选择1.2、下载安装二、cudnn安装三、pytorch...
MySQL基础-多表查询 文章目录MySQL基础-多表查询一、案例及引入1、基础概念2、笛卡尔积的理解二、多表查询的分类1、等...
keil调试专题篇 调试的前提是需要连接调试器比如STLINK。 然后点击菜单或者快捷图标均可进入调试模式。 如果前面...
MATLAB | 全网最详细网... 一篇超超超长,超超超全面网络图绘制教程,本篇基本能讲清楚所有绘制要点&#...
IHome主页 - 让你的浏览... 随着互联网的发展,人们越来越离不开浏览器了。每天上班、学习、娱乐,浏览器...
TCP 协议 一、TCP 协议概念 TCP即传输控制协议(Transmission Control ...
营业执照的经营范围有哪些 营业执照的经营范围有哪些 经营范围是指企业可以从事的生产经营与服务项目,是进行公司注册...
C++ 可变体(variant... 一、可变体(variant) 基础用法 Union的问题: 无法知道当前使用的类型是什...
血压计语音芯片,电子医疗设备声... 语音电子血压计是带有语音提示功能的电子血压计,测量前至测量结果全程语音播报࿰...
MySQL OCP888题解0... 文章目录1、原题1.1、英文原题1.2、答案2、题目解析2.1、题干解析2.2、选项解析3、知识点3...
【2023-Pytorch-检... (肆十二想说的一些话)Yolo这个系列我们已经更新了大概一年的时间,现在基本的流程也走走通了,包含数...
实战项目:保险行业用户分类 这里写目录标题1、项目介绍1.1 行业背景1.2 数据介绍2、代码实现导入数据探索数据处理列标签名异...
记录--我在前端干工地(thr... 这里给大家分享我在网上总结出来的一些知识,希望对大家有所帮助 前段时间接触了Th...
43 openEuler搭建A... 文章目录43 openEuler搭建Apache服务器-配置文件说明和管理模块43.1 配置文件说明...