Jim Fan锐评:GPT-4o低延迟的奥秘在这里 gpt锐评 gpt-4用起来怎么样
admin
2024-05-14 11:31:10
0

14日凌晨,OpenAI召开了一个简短的发布会,发布了新的AI模型:GPT-4o,除了可以给普通用户使用之外,还将开放相应API给GPT的开发者,比原来的GPT 4-Turbo快2倍,价格还便宜50%,妥妥的“加量又减价”。

英伟达高级研究科学家Jim Fan对此发了篇长推文,点评OpenAI的这款新模型:低延迟,支持文字、图像和视频输入和输出,而且还会假装自己是有情感的人类...

原文如下:

我知道你的时间线上现在充斥着“疯狂的,电影《Her》,你错过的10个功能,我们又回来了”这样的文字。 坐下来,像Mark在演示中那样深呼吸,让我们一步步思考:
从技术角度来看,OpenAI已经找到了一种方法,可以直接将音频映射到音频作为第一类模态,并实时将视频流传输到transformer大模型。这需要对标记化和架构进行一些新的研究,但总体上是一个数据和系统优化问题。
高质量的数据至少可以来自以下两个来源:
首先是YouTube、播客、电视剧、电影等内容包含的对话。
可以训练Whisper来识别对话中的发言者顺序或分离重叠的讲话以进行自动注释。
其次是合成数据。使用强大的模型分3阶段运行:
语音1->文本1(自动语音识别ASR)
文本1->文本2(大型语言模型LLM)
文本2->语音2(文本到语音TTS)。
期间大型语言模型LLM可以决定何时停止,也可以模拟如何从中断中恢复。它可以输出对话中暗含“想法”,以帮助生成更好的回复。
然后GPT-4o直接从语音1>语音2过程中进行提取,可选的辅助损失函数基于3阶段数据。提取后,所有操作都被被嵌入到模型中,而不需要发出中间文本。
在系统方面:如果每个视频帧都解压成RGB图像,就能实现低延迟。OpenAI可能已经开发了基于神经网络的流式视频编解码器,以token形式传输运动增量。通信协议和神经网络推理必须共同优化。
例如,可以在终端设备上运行一个小型且节能的神经网络,如果视频有趣就传输更多token,否则传输较少。
我没想到GPT-4o会离GPT-5更近,GPT-5是传闻中的“Arrakis”模型,可以输入和输出多模态。实际上,它很可能是GPT-5的一个早期训练点,但还没有完成训练
GPT-4o的定位透露出OpenAI某种不安全感。在Google I/O之前,OpenAI宁愿超越我们对GPT-4.5的心理预期,也不愿因为达不到对GPT-5的极高期望而令人失望。这是一个聪明的举措,可以争取更多时间。
值得注意的是,GPT-4o更加活泼,甚至有点调皮。GPT-4o甚至尝试(也许有点过于努力)听起来像女性。OpenAI正在蚕食Character AI的市场份额,这两家的产品高度重叠,并且OpenAI拥有庞大的分销渠道。GPT-4o正尝试向更具情感的AI转变,OpenAI过去似乎积极抑制了这一点。
谁先赢得苹果,谁就能大获全胜。我看到与iOS的整合有三个层次:
1)放弃Siri。OpenAI为iOS提取一个较小级别的、纯粹的设备上的GPT-4o,可选的付费升级以使用云服务。
2)将相机或屏幕流式传输到模型,芯片级支持神经音频/视频编解码器。
3)与iOS系统级操作API和智能家居API整合。没有人使用Siri快捷方式,但现在是时候复活了。这可以立即成为拥有10亿用户的AI代理产品。智能手机的全自动驾驶(FSD)与特斯拉规模的数据飞轮。

以下是他的推特原文:


相关内容

热门资讯

linux入门---制作进度条 了解缓冲区 我们首先来看看下面的操作: 我们首先创建了一个文件并在这个文件里面添加了...
C++ 机房预约系统(六):学... 8、 学生模块 8.1 学生子菜单、登录和注销 实现步骤: 在Student.cpp的...
A.机器学习入门算法(三):基... 机器学习算法(三):K近邻(k-nearest neigh...
数字温湿度传感器DHT11模块... 模块实例https://blog.csdn.net/qq_38393591/article/deta...
有限元三角形单元的等效节点力 文章目录前言一、重新复习一下有限元三角形单元的理论1、三角形单元的形函数(Nÿ...
Redis 所有支持的数据结构... Redis 是一种开源的基于键值对存储的 NoSQL 数据库,支持多种数据结构。以下是...
win下pytorch安装—c... 安装目录一、cuda安装1.1、cuda版本选择1.2、下载安装二、cudnn安装三、pytorch...
MySQL基础-多表查询 文章目录MySQL基础-多表查询一、案例及引入1、基础概念2、笛卡尔积的理解二、多表查询的分类1、等...
keil调试专题篇 调试的前提是需要连接调试器比如STLINK。 然后点击菜单或者快捷图标均可进入调试模式。 如果前面...
MATLAB | 全网最详细网... 一篇超超超长,超超超全面网络图绘制教程,本篇基本能讲清楚所有绘制要点&#...
IHome主页 - 让你的浏览... 随着互联网的发展,人们越来越离不开浏览器了。每天上班、学习、娱乐,浏览器...
TCP 协议 一、TCP 协议概念 TCP即传输控制协议(Transmission Control ...
营业执照的经营范围有哪些 营业执照的经营范围有哪些 经营范围是指企业可以从事的生产经营与服务项目,是进行公司注册...
C++ 可变体(variant... 一、可变体(variant) 基础用法 Union的问题: 无法知道当前使用的类型是什...
血压计语音芯片,电子医疗设备声... 语音电子血压计是带有语音提示功能的电子血压计,测量前至测量结果全程语音播报࿰...
MySQL OCP888题解0... 文章目录1、原题1.1、英文原题1.2、答案2、题目解析2.1、题干解析2.2、选项解析3、知识点3...
【2023-Pytorch-检... (肆十二想说的一些话)Yolo这个系列我们已经更新了大概一年的时间,现在基本的流程也走走通了,包含数...
实战项目:保险行业用户分类 这里写目录标题1、项目介绍1.1 行业背景1.2 数据介绍2、代码实现导入数据探索数据处理列标签名异...
记录--我在前端干工地(thr... 这里给大家分享我在网上总结出来的一些知识,希望对大家有所帮助 前段时间接触了Th...
43 openEuler搭建A... 文章目录43 openEuler搭建Apache服务器-配置文件说明和管理模块43.1 配置文件说明...