“想拿我的数据炼 AI,那麻烦先把帐结一下。” “想拿我的数据炼 AI,那麻烦先把帐结一下。”
admin
2024-03-29 14:12:53
0

当我们感慨 AI 快把人类一锅端了之时,有大聪明发现了AI 的一生之敌——弱智吧

于是,我们看到了类似《我教 AI 弱智吧问题,结果它疯了》《把 ChatGPT 和文心一言扔进弱智吧,谁可以先出院?》……这样的整活实验,俨然把弱智吧问题当成中国人自己的图灵测试。细瞅他们怎么问,发现问的是“蓝牙耳机坏了,应该去看耳科还是牙科”,都不用看 AI 怎么答,AI 在攻陷人类之前,弱智吧就是最后一座堡垒。

就这样,贴吧这么个老古董,和光鲜亮丽的 AI,连接在了一起。

2005 年,硅谷也诞生了自己的“贴吧”——Reddit。“苟”了 19 年的它,也终于迎来新叙事:当地时间 3 月 21 日,Reddit 在纽交所敲钟上市,较此前发行预计的 65 亿美元估值计算,收盘市值已增加 30 亿美元,涨幅达 46%

要知道,这家公司从未盈利,且累计亏损超过 7 亿美元。那市场为何这么乐观?其中一个原因是,Reddit 和多家 AI 公司签了数据授权协议,收入合计有 2.03 亿美元。


图片来源:Unsplash

“想拿我的数据炼 AI,那麻烦先把帐结一下。”这大概就是 Reddit 的心里话。

但对于一个 UGC(用户生成内容)平台,用户难道不是“衣食父母”吗?“Reddit 把我们卖了。”这是用户们在明面上的控诉。

关于 Reddit,我们有太多想问的了。


Reddit 敢为人先。它是第一家公开向生成式 AI 新贵们叫板的公司,要求后者只要用到平台语料训练 AI 就必须付钱。

关键是,Reddit“得逞”了。据路透社报道,今年 2 月,它和 Google 谈好价码——6000 万美元(每年!)

再怎么说,Reddit 也是全美流量前五的网站,仅次于 Google、YouTube、Facebook 以及 Amazon。具体到更硬的指标,它在招股书里说月活跃用户有 3.3 亿,日活 7310 万,活跃着的讨论组(subreddit)有 10 万个。


回答“Reddit 的语料为何珍贵?”之前,得先问“语料为何珍贵?”。

在 AI 时代,少不了数据、算力和算法这三大要素。数据是基础,算力作为支撑,算法相当于引擎,三者相互依存、促进。

早期大模型 GPT 训练所用的文本语料中,有书籍、网页爬取、社交媒体平台、百科、代码这几类。其中就有一个叫“WebText”的语料,这个资源爬取了 Reddit 上那些至少有三个赞的内容,等于说,经过了一层初筛,标准是“是否够流行”。


图片来源:GIPHY

有意思的是,语料库的英文是“corpus”,这个词源自拉丁语,是“身体”的意思。将语料库形容为 AI 的身体不知道恰不恰当,但从“身体是革命的本钱”去理解倒是成立的,没有语料数据,就炼不了 AI


a16z 创始人 Marc Andreessen 认为,这波 AI 浪潮之所以能兴起,正是因为互联网在过去二十几年来沉淀了大量的数据。但人工智能研究和预测组织 Epoch 指出,高质量的文本数据会在 2023 至 2027 年之间消耗殆尽。


图片来源:GIPHY

虽然 Epoch 也指出其分析方法和模型的局限,但 AI 训练消耗数据的贪婪,是不言而喻的。


谁到 Reddit 上都能创建讨论组(subreddit),也可以设置“吧主”维护,这和我们知道的贴吧没什么不同。


图片来源:Reddit

Reddit 弱化了“大 V”的存在,谁都可以发言(匿名也行),谁都可以点赞、点踩,获赞数多的会被顶上去,这种排序是“民意”的反映。

你被点赞了,就能收获 Karma。这个指标,代表了用户的在社区的贡献价值以及活跃度。

目前,活跃着的讨论组有 10 万个。截至 2023 年 12 月,Reddit 上累计的帖子有 10 亿个,160 亿条回复。

在这个大型贴吧里,你能找到热门冷门形形色色的组:

比如各种 r/xxxxPorn,xxxxPorn 并不是你想的那样,通常代表着人对 xxxx 的极度沉迷,组友喜欢发布相关的“让人极度舒适的内容”,比如 r/FoodPorn、r/RoomPorn、r/DesignPorn;


警察!有人往肉卷里塞垃圾食品|Reddit 截图

比如 r/memes(收梗图的进);


图片来源:GIPHY

还有人热衷写两句话恐怖故事,以及讨论都市传说……

现任 CEO Steve Huffman 对《纽约时报》说,他认为 Reddit 的平台内容非常有价值,它们的新(newness)相关性(relevance)对大模型训练都是“刚需”。

一个在美国流量排前五的平台,每分每秒都会有新的讨论产生。至于相关性,贴吧里人以群分,话题足够垂直,讨论足够深入……在各个细分话题里,都是不那么泛化的讨论,这可能就是 Huffman 说到的相关性。


图片来源:curiousgnu.com

攒了 19 年的人类对话实录,在 AI 公司眼里,就是“黄金”。



最受欢迎的讨论组就是 r/funny,到哪都是乐子人最多|Reddit 截图

Reddit 比互联网上任何地方都够生发、容纳真实的对话,”Huffman 说,“在这里,我们能看到人在心理治疗、戒酒阶段会说的那种心里话,或者在别的地方不会说的话。”

真实,也意味着人们会在这里释放恶意。

Reddit 上不乏宣扬暴力和有色情暗示的讨论组,比如曾有一个叫“r/FatPeopleHate”的组,超 15 万人关注,他们找来胖子的照片,还主要针对女性,会给照片写上刻薄的注文。

Reddit 前产品高级副总裁 Dan McComas ,是封禁“恶意组”的关键人物。后来,他也因此被人肉、威胁。

2015 年,McComas 出来做了一个类似 Reddit 的社区 Imzy,但绝对禁止血腥色情,可以打赏其他用户,0 广告,但半年后就退场了。既不绿色也不友好的 Reddit 仍在高歌猛进。


2017 年愚人节,Reddit 搞了一个线上实验。官方先放出一张 1000 × 1000 的像素画布,并设定规则:每名用户每五分钟可以往画布上放一个像素,也就是在小格子上涂抹任意一种颜色。这种“反人类”的规则,使得用户无法独自操作,只能拉帮结社、共同创作。

就这样,文化符号、公共事件等都微缩在了最终的成品上,也没有原本不少人预想的糟糕,相反,是一种杂乱中的和谐。

这些用户既可以为了认定的图腾作画,也能让华尔街惊掉下巴。


图片来源:Wikipedia

2021 年一月初,老牌游戏连锁店游戏驿站股票不过 20 美元,最后竟一度涨到了 400 美元,这迫使知名做空机构 Melvin Capital 紧急募资 37.5 亿美元平仓认输,而做空起家的香橼宣布不再做空,只做多。

而这一切仅仅只是从 Reddit 上的一个吐槽帖开始的。一大群在游戏驿站买过游戏,在金融危机期间认为自己是被华尔街“洗劫”的 Reddit 用户,恼羞成怒,联合起来 all in 游戏驿站。“散户反击华尔街”一战,就此打响。


2020 年 3 月,那会儿刚退出微软董事会的比尔·盖茨,就在 Reddit 上直接与网友互动,回答美国网民有关新冠病毒防疫及治疗的问题。Reddit 经常能请来大牌坐镇|GIPHY


不少人在 Reddit 上说,“之所以免费,因为我们才是产品。”

Reddit 去年收紧了 API 授权,牢牢把握住自己平台的内容。埃隆·马斯克将 Twitter 改成 X 后,也这么干,有人去扒了隐私政策,发现在 2.1 条例中,明确写道:“我们可能会使用收集到的信息和公开可用的信息来帮助训练我们的机器学习或人工智能模型。”

另外,也有人怀疑微博评论机器人 @评论罗伯特 就是通过平台内容训练出来的机器人。它的留言画风如下:



图片来源:微博 @罗伯特受害者联盟

但 Reddit 也做了点别的:给核心用户和版主、员工的亲朋好友们预留大约 176 万股股票,占发行总额 8%(Huffman 本人的持股也就 3.3%)。不同于其他投资者,这些用户不受锁定协议约束,可以在交易首日立即出售股份。


图片来源:GIPHY



有网友抱怨,Reddit 早已混入不少 AI 生成的内容,卖给 AI 公司训练,是 AI 训练 AI 吗?

作者:malt

编辑:卧虫

封面图来源:Reddit

相关内容

热门资讯

linux入门---制作进度条 了解缓冲区 我们首先来看看下面的操作: 我们首先创建了一个文件并在这个文件里面添加了...
C++ 机房预约系统(六):学... 8、 学生模块 8.1 学生子菜单、登录和注销 实现步骤: 在Student.cpp的...
A.机器学习入门算法(三):基... 机器学习算法(三):K近邻(k-nearest neigh...
数字温湿度传感器DHT11模块... 模块实例https://blog.csdn.net/qq_38393591/article/deta...
有限元三角形单元的等效节点力 文章目录前言一、重新复习一下有限元三角形单元的理论1、三角形单元的形函数(Nÿ...
Redis 所有支持的数据结构... Redis 是一种开源的基于键值对存储的 NoSQL 数据库,支持多种数据结构。以下是...
win下pytorch安装—c... 安装目录一、cuda安装1.1、cuda版本选择1.2、下载安装二、cudnn安装三、pytorch...
MySQL基础-多表查询 文章目录MySQL基础-多表查询一、案例及引入1、基础概念2、笛卡尔积的理解二、多表查询的分类1、等...
keil调试专题篇 调试的前提是需要连接调试器比如STLINK。 然后点击菜单或者快捷图标均可进入调试模式。 如果前面...
MATLAB | 全网最详细网... 一篇超超超长,超超超全面网络图绘制教程,本篇基本能讲清楚所有绘制要点&#...
IHome主页 - 让你的浏览... 随着互联网的发展,人们越来越离不开浏览器了。每天上班、学习、娱乐,浏览器...
TCP 协议 一、TCP 协议概念 TCP即传输控制协议(Transmission Control ...
营业执照的经营范围有哪些 营业执照的经营范围有哪些 经营范围是指企业可以从事的生产经营与服务项目,是进行公司注册...
C++ 可变体(variant... 一、可变体(variant) 基础用法 Union的问题: 无法知道当前使用的类型是什...
血压计语音芯片,电子医疗设备声... 语音电子血压计是带有语音提示功能的电子血压计,测量前至测量结果全程语音播报࿰...
MySQL OCP888题解0... 文章目录1、原题1.1、英文原题1.2、答案2、题目解析2.1、题干解析2.2、选项解析3、知识点3...
【2023-Pytorch-检... (肆十二想说的一些话)Yolo这个系列我们已经更新了大概一年的时间,现在基本的流程也走走通了,包含数...
实战项目:保险行业用户分类 这里写目录标题1、项目介绍1.1 行业背景1.2 数据介绍2、代码实现导入数据探索数据处理列标签名异...
记录--我在前端干工地(thr... 这里给大家分享我在网上总结出来的一些知识,希望对大家有所帮助 前段时间接触了Th...
43 openEuler搭建A... 文章目录43 openEuler搭建Apache服务器-配置文件说明和管理模块43.1 配置文件说明...