听起来像人的语音助手到底存不存在? 听起来像人的语音助手到底存不存在?
admin
2024-04-11 11:33:36
0


作者 |唐健博
邮箱 |tangjianbo@pingwest.com

2024 年伊始,三星 Galaxy S24 系列全球发布,它有着 S23 系列的脸,却有着全新的心:AI 心。随后 OPPO 又对着 AI 手机加了一把火,宣布“正式进入手机 AI 时代元年”。

可是 AI 到底是什么形状?它能做什么?AI 手机是不是个噱头?

今年,AI 又以生成式的面貌席卷了各大媒体头条。面对这个熟悉又陌生的新事物,大众消费者脑袋里依旧装着十万个为什么。

因为只要提及“AI 人工智能”,大家对它的印象基本是两极分化:要么是特别高大上,和我们的生活毫不相干,要么就是营销大于实质,没有任何实用性。

但只要你用过 AI 功能,就会发现这些功能不仅直观、实用,且拟人化。

语音助手,对答如流

过去,人们之所以认为 AI 的存在感很低,很大程度上是因为 AI 不够直观,简单说就是看不到 AI 在工作。

生成式 AI 的出现,通过文字对话和语音聊天,向大家更直接地展示了 AI 的工作流。

国产手机第一梯队的品牌早在 2023 年中下旬就逐步实现大模型上机,当你发出询问,AI 助手就会上网实时搜索信息,并根据已有的信息进行分析,最终处理成可视化的答案,像有智商的人类一样。


成语接龙

例如我随意扔一个不熟悉的知识点,由大模型加持的语音助手,会在云端处理一遍,给出比以前更加准确的答案。如果是传统的语音助手,通常的工作流程是在手机端的数据库内进行处理,得到的答案非常局限,单一且无用。


新闻整理和知识点

你会发现,你在 AI 语音助手的聊天窗口里得到的结果,和知乎的回答有几分相似度——这是必然的,因为可能这个答案的部分来源就是知乎。

与其自己上知乎搜索,还不如让 AI 语音助手来帮你汇总。这不仅免去了你动手的繁琐步骤,还避开了搜索引擎夹带的广告私货。

在一定程度上,当前手机上的 AI 语音助手,像个有一点点智商的小孩子,帮你搜索、分析和处理信息,但是缺乏复杂的思考,更缺乏明确的判别能力。因此最终给出的答案还得由人脑甄别。


好消息是,经过我的实测,已上机的 AI 语音助手面对复杂或者无法处理的问题,通常是直接回答“我不会”,而不是像 ChatGPT 那样逞强,即使给一个似对非对的答案,也不愿意直接回答自己不会。

随着 AI 语音助手大模型的策略逐步成熟,它可能会改变普通人的搜索习惯——从打开浏览器的地址栏,到使用手机默认的搜索框,再到今后长按电源键呼出语音助手,自然是最后一种方式最适合懒人。

把 AI 的门槛打下来

通过语音助手这个入口,你可以发掘更多实用的 AI 功能。

但我并不认为目前手机内置的所有 AI 功能都很实用,不过你可以看得出厂商的苦口婆心:把功能进行罗列分类,例如“小红书文案”“朋友圈文案”“生成标题”......让更多人了解 AI 手机的能力。


从左至右,OPPO、荣耀和小米

IDC 发布的《AI 手机白皮书》给下了个定义,具备生成式 AI 能力后,才能叫做“AI 手机”。

生成,即创造,即生产。AI 又再回到了社会性的本质。

如果你熟悉最火的生成式 AI 的工具,那么也一定熟悉 AI 手机上的类似功能。除了语音助手外,我认为有具备实用性的 AI 功能有以下两大类:

第一,图片处理类,例如 OPPO/三星的 AI 消除。

顾名思义,通过 AI 大模型的能力,识别、理解、消除你想要的目标人物/物体。即使你没有完全框选目标物体的轮廓,系统也能准确判断你可能想要消除的对象,并通过分析整张画面,进行更无缝的画面修复。AI 消除完成之后,你几乎看不到瑕疵,就像是一张没有被处理过的图片一样。


左为原图,右为 AI 消除后

相机是手机品牌最卷的阵地,没有之一。它能直观地体现品牌技术力的强弱,而用户们也越来越愿意拍照分享。因此 AI 消除也是使用频率最高的功能之一,旅游照、合照、扫街等照片都可以用它来进行处理。

一定会有人说,这种消除不就是 Photoshop 上的修补工具?非也,这是 Adobe 公司正在做的下一步的反向应用:AI 扩图的内修复版。如果你在一张图上反复使用 AI 消除,那么你会比愚公更厉害,不仅可以移山,还能重建城市风貌。


左为原图,右为反复 AI 消除后

关于图片处理,还有生成式 AI 最拿手的技能:文生图。

不过在实际体验中,我输入同一个指令,最终得到的结果完全不同。有的可以做到以假乱真的地步,而有的却始终无法理解我的指令,这就有赖于厂商对于大模型的投入度了。


同一个指令,不同程度的结果

但在未来,AI 与图片可以有更多的想象空间,例如未来可以处理视频的瑕疵,甚至生成一个你没有拍过的却以你为主角的 Vlog......

第二,语言识别类,例如 AI 通话摘要。

它会将你的通话内容整理成待办事项,包括任务的时间、地点、人物等等关键信息,同时总结通话的主要内容,帮助你提高效率,以免忘记重要信息。类似的功能也可以是会议记录摘要,完全免去了人工做纪要的过程,是非常好的生产力工具。


AI 通话摘要

OPPO 也基于 ChatGPT 的对话功能,推出了“小布英语老师”,试图帮助用户练习口语。我在试用了之后发现,这位英语老师更像是一个英文版的捧哏,它会想尽办法引导你继续对话,例如夸奖、反问、追问等等方式,不过用词都相对基础,是一个很好的练习口语入门的方式。另外还得提一句,由于是大模型训练出来的,它的发音也十分接近于真人,声音磁性,有抑扬顿挫,似乎还带着一点感情。

三星也有 AI 同声传译功能,当你和外国人通话的同时,它可以将你所说的语言转化为对方听得懂的语言,尽管文字早就有了实时翻译功能,但是说话的语言处理起来,还真得有大模型的加入才能有如此迅速和准确。

这两大类的功能,无非都在帮助我们提高生产力,这也是 AI 本来的使命。要知道,AI 能做到的远不止于此,只是受限于操作门槛,普通人并不了解 AI 能够完成哪些事情。

生成式 AI 已经或多或少进入我们的生活生产中,有文字媒体行业、广告影视行业等等。只要你仔细看看楼梯间的京东购物海报,就不难发现那些图片已经是 AI 生成的了,但如果对这行业不了解的人们,或许会以为是实拍图片。

听起来像人的语音助手

如果说语音助手已经足够直观,那么把语音助手的声音做得像真人一样,那就更能给人震撼了。

大家常刷的短视频,充斥着 AI 配音。早期刚出现的时候,相当多的人还没能发现这些视频的旁白都不是真人,但有经验的人,一定听得出,它除了能出声音之外,既没有正确的抑扬顿挫,也没有感情。

把机器的声音处理得和人一样,或许是这条赛道的终极目标。OPPO 曾在发布会中展示了 AI 的声音,是一位极具磁性的男性,如果不仔细甄别,你很容易相信这是一个真人在说话。

OPPO 的小布助手提供了 22 种音色,涵盖了不同性别、年龄、风格以及方言等等特点。但我认为更像人的,是那个叫“文锋-磁性男声”的音色。你让他讲个故事,念一首诗,或者转述书籍的内容,它都会像一个慈祥的播音员,加有一些节奏,随着声音的高低起伏娓娓道来。


从左至右,华为、小米、OPPO和vivo

开发较深的语音助手,也可以在一定程度上充当情感陪伴——我向不同品牌的语音助手询问“你喜欢谁”,得到的答案不尽相同。

有时候听着文锋的声音,会有一种错觉。像科幻电影《HER》里面,斯嘉丽约翰逊所配音的那个人工智能,没有实体,但随时陪伴着用户,给他生活建议,甚至会坠入虚拟的感情......


电影《HER》剧照

华为和小米也有音色切换,但是声音过于完美,有着更浓的机器味,而 vivo 并没有给“蓝心小V”别的音色选择,反而是在“Jovi 语音”里有更多选项。

当然,目前 AI 手机上所搭载的技术还不足以达到电影中所描述的场景,但相比过去的“语音智障”,至少它们听起来会更像人类一点了。

AI 手机,人工智能最接地气的实体

从紧密度上来说,手机无疑是最适合普及生成式 AI 的载体,但这并不是 AI 手机横空出世的唯一原因。

早期使用 ChatGPT 的朋友一定知道,AI 就像一个脑袋里装了 100 本百科全书的小孩子,它有很多料却不知道如何思考和行动,需要人类的训练和引导。

在人工智能聊天系统 ChatGPT 中,你想要让它帮助你完成脚本撰写,那么就得向它灌输足够的剧情背景、人物介绍、镜头语言等等;而在文生图的 midjourney 上显得更复杂,假如你想要它生成一张极其完美的图片,那么你得学会正确施法(prompt);甚至是你在询问微软的大模型聊天工具 Copilot 的时候,还得学会辨认信息的真伪——因为 AI 并不会向你保证它所说的都是完全正确的,这一点也和人类一样。

普通人接触到 prompt 就已经开始头大了,更不用说还要不断训练模型。

当这一切生成式 AI 功能转战到终端设备上,成为原生功能之后,品牌就需要完成部分训练引导工作,并尽可能解决内容正确性和合规等问题,最终交给用户的功能是简单的、易用的、有效的。

因为在全球超过 66 亿的智能手机用户里,99.99% 都是普通人。他们不知道生成式 AI 这两年如此火爆,也不知道 AI 手机能做些什么,更没有用过 AI 手机的具体功能。但他们一定有可以被 AI 满足的需求,这就是 AI 落地的最佳使用场景。

AI 手机,可谓是来自于大众,回归大众。

因此从《AI 手机白皮书》中对“AI 手机”的定义来说,市面上绝大部分搭载大模型的手机,都可以称作“AI 手机”。如果不用“AI 手机”来给它命名,我还真找不到更合适的名词了。“超级手机”?“智能化反手机”?还是朴实的“超级智慧手机”?


近日关于下一代 iPhone 将会搭载大模型的传闻已是满天飞,无论是传言接洽的百度文心大模型,还是 Gemini AI,总之 iPhone 拥抱生成式 AI 几乎是板上钉钉。

至于 AI 手机到底是不是个噱头,让子弹再飞一会儿。

相关内容

热门资讯

linux入门---制作进度条 了解缓冲区 我们首先来看看下面的操作: 我们首先创建了一个文件并在这个文件里面添加了...
C++ 机房预约系统(六):学... 8、 学生模块 8.1 学生子菜单、登录和注销 实现步骤: 在Student.cpp的...
A.机器学习入门算法(三):基... 机器学习算法(三):K近邻(k-nearest neigh...
数字温湿度传感器DHT11模块... 模块实例https://blog.csdn.net/qq_38393591/article/deta...
有限元三角形单元的等效节点力 文章目录前言一、重新复习一下有限元三角形单元的理论1、三角形单元的形函数(Nÿ...
Redis 所有支持的数据结构... Redis 是一种开源的基于键值对存储的 NoSQL 数据库,支持多种数据结构。以下是...
win下pytorch安装—c... 安装目录一、cuda安装1.1、cuda版本选择1.2、下载安装二、cudnn安装三、pytorch...
MySQL基础-多表查询 文章目录MySQL基础-多表查询一、案例及引入1、基础概念2、笛卡尔积的理解二、多表查询的分类1、等...
keil调试专题篇 调试的前提是需要连接调试器比如STLINK。 然后点击菜单或者快捷图标均可进入调试模式。 如果前面...
MATLAB | 全网最详细网... 一篇超超超长,超超超全面网络图绘制教程,本篇基本能讲清楚所有绘制要点&#...
IHome主页 - 让你的浏览... 随着互联网的发展,人们越来越离不开浏览器了。每天上班、学习、娱乐,浏览器...
TCP 协议 一、TCP 协议概念 TCP即传输控制协议(Transmission Control ...
营业执照的经营范围有哪些 营业执照的经营范围有哪些 经营范围是指企业可以从事的生产经营与服务项目,是进行公司注册...
C++ 可变体(variant... 一、可变体(variant) 基础用法 Union的问题: 无法知道当前使用的类型是什...
血压计语音芯片,电子医疗设备声... 语音电子血压计是带有语音提示功能的电子血压计,测量前至测量结果全程语音播报࿰...
MySQL OCP888题解0... 文章目录1、原题1.1、英文原题1.2、答案2、题目解析2.1、题干解析2.2、选项解析3、知识点3...
【2023-Pytorch-检... (肆十二想说的一些话)Yolo这个系列我们已经更新了大概一年的时间,现在基本的流程也走走通了,包含数...
实战项目:保险行业用户分类 这里写目录标题1、项目介绍1.1 行业背景1.2 数据介绍2、代码实现导入数据探索数据处理列标签名异...
记录--我在前端干工地(thr... 这里给大家分享我在网上总结出来的一些知识,希望对大家有所帮助 前段时间接触了Th...
43 openEuler搭建A... 文章目录43 openEuler搭建Apache服务器-配置文件说明和管理模块43.1 配置文件说明...