为何福克斯新闻等允许OpenAI爬虫收集数据,《纽约时报》却持相反意见? 为何福克斯新闻等允许OpenAI爬虫收集数据,《纽约时报》却持相反意见?
admin
2024-01-25 20:46:46
0

在生成式人工智能和大语言模型兴起的背后,高质量的训练数据发挥了关键作用。

为更好地提高人工智能模型生成内容的准确性和价值度,包括 在内的人工智能公司往往通过网络爬虫的方式收集数据,以训练其开发的模型并为聊天机器人提供内容素材。


(来源:AI 生成)

例如, 于 2023 年发布了“GPTBot 爬虫”,称它会基于该爬虫爬取的网络数据,来推动今后的模型开发。不仅如此,该公司也分享了指导网站如何完全或部分禁止爬虫的方法。


图丨禁止 GPTBot 访问网站(来源: 官网)

与此同时,多家美国知名网站开始禁止来自 和其他公司的人工智能网络爬虫。

直到今年 1 月中旬,人工智能检测初创公司 在 44 个领先的新闻网站上进行了数据搜集,发现目前几乎所有的网站都屏蔽了人工智能网络爬虫,包括《纽约时报》《华盛顿邮报》《卫报》等报纸。

然而,一个有意思的现象是,在接受调查的美国知名右翼新闻媒体中,如福克斯新闻、每日传讯和布赖特巴特新闻网等,没有任何一家媒体做出阻止人工智能网络爬虫的行动。

虽然大多数右翼网站尚未对此事发表公开评论,但相关领域的从业人员却基于该现象做出了一些不同的猜测。

其中,这或许是右翼媒体用来对抗感知政治偏见的策略,是一种获得诸多认可的猜测。

“人工智能模型反映了其训练数据的偏见。” 创始人兼 CEO 乔恩·吉勒姆()对媒体表示,“如果整个偏左的内容都被屏蔽了,你可以说,来这里‘吃掉’我们所有偏右的内容吧。”

事实上,人工智能产生偏见的情况的确存在。

据了解,在最近一次关于人工智能的听证会上,共和党籍参议员玛莎·布莱克本(Marsha Blackburn)用一首由人工智能生成的赞美拜登总统的诗歌作为证据,指出用 ChatGPT 无法生成类似的对特朗普的颂歌。

基于美国保守派领导人对 ChatGPT 和其他人工智能工具表现出自由主义或左倾政治偏见的担忧,右翼媒体有理由将自由派同行阻止人工智能网络爬虫的决定,视为促进意识形态平衡的独特机会。

不过,在美国加利福尼亚大学洛杉矶分校的人工智能伦理研究员杰里米·鲍姆()看来,右翼媒体允许人工智能网络爬虫搜集数据的行为,并不能对人工智能系统的内容输出产生可衡量的影响。

部分原因在于,当媒体开始禁止人工智能网络爬虫之前,人工智能公司已经从中收集了大量的资料,并且往往倾向于雇佣具有自由主义倾向的员工。

另外,大多数人工智能公司的目标都是创建价值中立的系统。如果控制人工智能的开发者看到右翼内容有所增加,但通过判断其不安全或错误,他们可能会撤销任何向机器提供某种观点的尝试。

正如 发言人凯拉·伍德()所说,“为了追求能够深刻体现所有文化、行业、意识形态和语言的人工智能模型,公司使用了广泛的训练数据集。

任何一个新闻网站只是整个训练数据的一小部分,不会对模型的预期学习和输出产生可衡量的影响”。

除了上述猜测,有关人士认为该现象的背后,还可能反映出新闻网站对版权问题的意识形态分歧。

具体来说,大多数主流媒体的管理者都认为这种数据爬取属于“盗窃”。比如,《纽约时报》认为 的数据搜集是非法的,并正在起诉该公司侵犯版权。

但右翼媒体的管理者却未针对版权问题发表意见,他们或许认为用来建立人工智能系统的数据爬取操作,受到合理使用原则的保护。

其实,从技术角度来推测,不管该现象是基于哪些原因产生的,只要有越来越多的网站屏蔽人工智能网络爬虫,开发者就越难找到好的训练数据,对人工智能产品改进和更新的难度也会随之增高。

而在 年营收即将突破 10 亿美元的当下,生成式人工智能的发展前景和对人类社会的重要性可见一斑。

因此,不管是人工智能公司,还是新闻网站,都应该尽可能地在拥抱人工智能和抵制它的发展之间,谋求一种适当的平衡。

参考资料:

https://www.wired.com/story/most-news-sites-block-ai-bots-right-wing-media-welcomes-them/

https://platform.openai.com/docs/gptbot

https://www.linkedin.com/posts/emilprotalinski_most-top-news-sites-block-ai-bots-right-wing-activity-7155945517515001856-v4zf

https://www.axios.com/2023/08/31/major-websites-are-blocking-ai-crawlers-from-accessing-their-content

https://finance.yahoo.com/news/openais-meteoric-rise-1-billion-173545014.html

运营/排版:何晨龙


01/

02/

04 /

05/

相关内容

热门资讯

linux入门---制作进度条 了解缓冲区 我们首先来看看下面的操作: 我们首先创建了一个文件并在这个文件里面添加了...
C++ 机房预约系统(六):学... 8、 学生模块 8.1 学生子菜单、登录和注销 实现步骤: 在Student.cpp的...
A.机器学习入门算法(三):基... 机器学习算法(三):K近邻(k-nearest neigh...
数字温湿度传感器DHT11模块... 模块实例https://blog.csdn.net/qq_38393591/article/deta...
有限元三角形单元的等效节点力 文章目录前言一、重新复习一下有限元三角形单元的理论1、三角形单元的形函数(Nÿ...
Redis 所有支持的数据结构... Redis 是一种开源的基于键值对存储的 NoSQL 数据库,支持多种数据结构。以下是...
win下pytorch安装—c... 安装目录一、cuda安装1.1、cuda版本选择1.2、下载安装二、cudnn安装三、pytorch...
MySQL基础-多表查询 文章目录MySQL基础-多表查询一、案例及引入1、基础概念2、笛卡尔积的理解二、多表查询的分类1、等...
keil调试专题篇 调试的前提是需要连接调试器比如STLINK。 然后点击菜单或者快捷图标均可进入调试模式。 如果前面...
MATLAB | 全网最详细网... 一篇超超超长,超超超全面网络图绘制教程,本篇基本能讲清楚所有绘制要点&#...
IHome主页 - 让你的浏览... 随着互联网的发展,人们越来越离不开浏览器了。每天上班、学习、娱乐,浏览器...
TCP 协议 一、TCP 协议概念 TCP即传输控制协议(Transmission Control ...
营业执照的经营范围有哪些 营业执照的经营范围有哪些 经营范围是指企业可以从事的生产经营与服务项目,是进行公司注册...
C++ 可变体(variant... 一、可变体(variant) 基础用法 Union的问题: 无法知道当前使用的类型是什...
血压计语音芯片,电子医疗设备声... 语音电子血压计是带有语音提示功能的电子血压计,测量前至测量结果全程语音播报࿰...
MySQL OCP888题解0... 文章目录1、原题1.1、英文原题1.2、答案2、题目解析2.1、题干解析2.2、选项解析3、知识点3...
【2023-Pytorch-检... (肆十二想说的一些话)Yolo这个系列我们已经更新了大概一年的时间,现在基本的流程也走走通了,包含数...
实战项目:保险行业用户分类 这里写目录标题1、项目介绍1.1 行业背景1.2 数据介绍2、代码实现导入数据探索数据处理列标签名异...
记录--我在前端干工地(thr... 这里给大家分享我在网上总结出来的一些知识,希望对大家有所帮助 前段时间接触了Th...
43 openEuler搭建A... 文章目录43 openEuler搭建Apache服务器-配置文件说明和管理模块43.1 配置文件说明...