钉钉AI:好险,差点就被长文本卷到 钉钉AI:好险,差点就被长文本卷到
admin
2024-03-28 13:01:40
0

梦晨 衡宇 发自 凹非寺
量子位 | 公众号 QbitAI

好家伙,现在随便打开一个大模型应用,支持的文本都有那————么长。

最新消息,7亿人在用的钉钉也加入战局,一出手就是长文本、多模态和工作流三大能力升级,全是最热门的AI迭代方向。

专门提一下,钉钉AI助理的长文本这次能轻松拿捏几十万字的文档,甚至放话单文档理论上无上限



钉钉那边倒是没避讳,直言采用的是自研的RAG方向的路线。目前考虑到工作场景的实用性,单文档还是限制在上限500页(小声说,可能也是要考虑成本?)。

讲道理,普通人应该很少有需要大模型吃超长文本的时候……但是作为用户和体验者,咱就一个原则:我可以用不上,你不能不提供(手动狗头)。

除了“量子速读”,钉钉AI助理在文档细节上也对答如流。

一份文档喂进去,你得到的不是只读了一遍的助手,而是研究了千百遍的专家。



再者,除了祭出长文本能力,钉钉还全面升级,继续在集成AI能力上整大活。

多模态速读:不只是文档、图片的理解,还支持解析网页、书籍、视频的摘要速度。在钉钉知识库中,如果你的文档比较多,甚至可以一次性解析几百万甚至几千万字的文档,也能做到跨文档的解析、问答。自定义工作流:可视化配置AI的工作流程,把AI能力真正用到业务流程里。

能写会看,还能自定义工作流,在钉钉,用户完全可以拥有新造的AI同事。



同时也可以从这件事上看出一些市场动向。目前,做AI的公司逐渐划分出两派。

以技术为出发点的公司,去寻找场景,目前主要在长文本、多模态等纯技术能力上狂卷。

以场景为出发点的公司,去集成技术,已经陆续放出来了一些不一样的东西。



书归正传,下面就来实测一把,看看集AI能力大成的钉钉,到底实力如何。

实测钉钉AI助理:实用玩家

钉钉功能这么丰富,AI助理入口在哪?

其实不用去找它,像平常一样把工作需要的文档、网页丢给同事或群里,AI会主动来找你的



接下来轻轻一点,万字长文就被总结成了几个要点,缓解信息爆炸焦虑真是一绝。



除了网页、文档速读,多模态速听速看也是钉钉AI这次更新的一大重点。

先上最基础的图片。



一张投资机构整理的AI视频产业全景图,信息非常丰富。

如果想提取其中信息,先来看传统选手——OCR的效果:格式混乱不说,还容易把公司Logo识别成奇奇怪怪的符号。



把图发给钉钉AI助理,就省心很多了。

不用多余的解释,它不仅能识别其中的公司名称,还把分类给整理出来了。



视频也是同样的配方,同样的味道。

大神Andrej Karpathy在红杉的活动上讲了36分钟,钉钉AI助理看完只需要3分钟。



伴随着一声清脆的“钉”,大段听着头疼的英文演讲就变成中文总结了。



目前市面上的多模态AI产品,往往都在强调视觉能力。但是可别忘了,表格模态才是日常工作中更常用的。

钉钉AI助理对于表格的处理非常有主动性,无需额外交代,直接画出适合展现数据的图表,还有一些自己的见解,有智能体Agent那味儿了。



这些还都只是单点的AI模型能力产品化,更值得一试的还是自定义工作流。

可能很多用户不太理解什么是工作流,其实字节扣子的workflow方式也是这一逻辑。

这是一种执行编排方式,给AI提供灵活可组合的节点,甚至支持自定义代码,来实现复杂且可控的AI任务流需求。当任务场景包含较多的执行步骤,或者对输出的准确性或者格式有明确要求时,可以规划AI助理的工作流,来更好地保证输出符合期望的结果。

简单讲,本质上是把过去的RPA自动化执行流程,应用到了AI上,一定程度上人工做了AI的推理,一来让大模型有指向、有选择的执行任务,更准确,解决现在全球 AI 面临的意图识别问题;二来让大模型可以在工作流中,插入更丰富的行动能力。

一句话总结,就是让AI执行任务更准确,行动也更丰富了。

先看最终效果:只需提供一个话题,AI自动生成小红书文案不说,连发布都代劳了。



要制作这样一个自定义AI助理也非常简单,不会编程没关系,只需要点点鼠标,输入你的需求。



并且在钉钉AI助理市场,已经有不少制作好的现成助理,一般常见需求都覆盖了。

如果有更进阶的需求,也可以把他们当成示例模板,学习其中的提示词和流程编排技巧。



就这样,除了好用、实用之外,在钉钉上用AI还有一种特别的体验:顺滑。

特别是对于本来就在钉钉上办公的朋友来说,不用切换窗口到各路复杂的AI工具,复制粘贴文档了。

无论是同事、合作伙伴发来的文件还是钉钉文档里的内容,都可以一件转发给AI助理。



而AI的输出结果也可以再次转发给其他联系人,甚至传送到钉钉文档,借助“斜杠”的AI能力进一步加工处理。



甚至,只要你有开放API,不管是让钉钉AI用微信、Notion、腾讯会议,还是让AI打通公司原有的生产、销售、选题各类系统,都成!



总之,在已经成熟的办公平台使用AI能力,信息的流转更顺畅了。

大模型下一战场:实际落地、实用价值

2024年,AI战事转为应用爆发,瞄准百业千行进行落地,产生实际效益。

对于渴望AI进入工作、进入生活的普通人来说,亲手用上AI Native的应用比在新闻上见证技术的变革更有趣,体感上也好得多。

人们期待的不再是高大上的概念,而是切切实实上手用起来。

在万众期待下,AI应用发展趋势愈发明显。

一方面,大模型的技术愈发完善,涌现出惊人的强大能力,尤其是多模态能力方面。

放眼当下,以GPT-4、Gemini、Claude 3为代表的大模型,不再局限于处理单一类型的数据或执行单一类型的任务,而是能够整合多种模态的数据,如文本、图像、声音等,提供更加丰富和深入的分析和理解。

搭建在这样日渐强大模型基础上的AI应用,也愈发着重多模态功能。

另一方面,那些以“皇帝的金锄头”为目标场景的AI应用,逐步被市场需求证伪,淹没在时代的浪潮里。

被冲刷留下的,都是那些更贴近实际需求、有应用场景的AI应用。

这些应用的共同特点,就是不仅仅是将大模型能力作为一项新颖的展示技术,而是以模型技术为基础,开始狂卷处理复杂任务的能力。

工作场景,大模型能力被用于编写代码、建立自定义工作流,省时提效,作为处理工作事宜的帮手;医疗领域,大模型能力被用于辅助诊断、制定个性化治疗方案、研发药物;金融行业,大模型能力被用于帮助分析市场趋势、管理风险、提供个性化的投资建议;而在制造业,AI大模型能力参与了从产品设计、供应链管理、预测性维护等关键环节。

类似的例子不胜枚举。

总而言之,AI应用展现的处理复杂任务方面的能力正在逐步得到认可和应用,已成为明显的行业趋势。

既然是行业趋势,大家都看得到,为什么钉钉在速度上又领先一步?

量子位调研总结,钉钉至少手里有三张王牌。

第一张,坚实的技术功底。

作为阿里巴巴的重要产品,钉钉能直接用上阿里在大模型领域的最新成果——通义千问。据介绍,通义千问不仅是国内首个千亿级中文大模型,在多模态理解、长文本处理等方面已是国内大模型佼佼者。

在图片理解上,钉钉AI助理基于通义千问Qwen-VL-Max视觉理解模型,在多个权威测评中获得佳绩,比肩OpenAI的GPT-4V和谷歌的Gemini Ultra。



而且钉钉对通义千问不是简单套用,反而是进一步打造了一套完整的AI框架,其AI助理构建在3个系统之上:

感知系统:负责感知,进行prompt的输入。特点是钉钉这个工作场景的上下文,如会议纪要、工作任务,授权后也可以被感知,而不只是对话的上下文。;

行动系统:低代码、钉钉的各个功能、SaaS应用,将成为Agent核心系统的手和脚,完成生成、问答、调用、分析等系列行为;

思考系统:接入通义千问模型,让Agent拥有快思考和慢思考的能力。

这种全栈式的技术架构,保证了钉钉AI从需求理解到任务完成的端到端闭环。

第二张,在大模型元年早期就洞察趋势,抢先入局,积累经验。

基于对AI发展趋势的精准判断,钉钉早在23年4月就率先推出AI产品“钉钉魔法棒”。

在国内办公平台之中动作最快,成为首个走向智能化的生产力工具。



抢先入局让钉钉积累了宝贵的实战经验,这次AI大升级很多功能设计其实就是不断迭代改进的结果。

如当初还需要使用文档资料提前训练的“问答机器人”,就进化成了随时把文档、网页链接丢到任何一个聊天或群聊,就能随时、随地调动AI能力。

这些功能还被放到AI Agent里,与行动能力相协同,相当于有了知识之后,又有了手和脚。

第三张,场景积累在我,过去还积累了无代码低代码平台。

据数据统计,钉钉在全球范围内已服务了2500万组织。

这意味着,各行各业海量的办公协同场景被钉钉收入囊中,为其AI应用提供了极其丰富的应用土壤。

而在平台能力上,钉钉此前发力的智能化OA、RPA、宜搭等产品,也都成为此次AI助手的有力补充。

所以在自定义AI工作流刚上线,不仅有官方预先制作好的常用模板,热心用户也能迅速把自己的个性化工作流搬上来,突出一个轻车熟路。



可以说,钉钉多年的战略性投入,借着AI这波AI新浪潮又开花结果了。

一年前这个时候,所谓AI应用还大多是“大模型技术演示”,远远称不上产品。

当时我们曾预言,只有准确把握AI时代的交互模式,应用于大量的应用场景,才能让AI能力在反馈中不断提升、应用层不断创新,形成新的增长飞轮。

如今看来,钉钉AI一年多来的实践正是沿这个方向给大家趟出一条更具体、更容易摸着走下去的路。

“AIGC一天,人间一年”,我们离真正的第一个AI超级应用,已经不远了。

相关内容

热门资讯

linux入门---制作进度条 了解缓冲区 我们首先来看看下面的操作: 我们首先创建了一个文件并在这个文件里面添加了...
C++ 机房预约系统(六):学... 8、 学生模块 8.1 学生子菜单、登录和注销 实现步骤: 在Student.cpp的...
A.机器学习入门算法(三):基... 机器学习算法(三):K近邻(k-nearest neigh...
数字温湿度传感器DHT11模块... 模块实例https://blog.csdn.net/qq_38393591/article/deta...
有限元三角形单元的等效节点力 文章目录前言一、重新复习一下有限元三角形单元的理论1、三角形单元的形函数(Nÿ...
Redis 所有支持的数据结构... Redis 是一种开源的基于键值对存储的 NoSQL 数据库,支持多种数据结构。以下是...
win下pytorch安装—c... 安装目录一、cuda安装1.1、cuda版本选择1.2、下载安装二、cudnn安装三、pytorch...
MySQL基础-多表查询 文章目录MySQL基础-多表查询一、案例及引入1、基础概念2、笛卡尔积的理解二、多表查询的分类1、等...
keil调试专题篇 调试的前提是需要连接调试器比如STLINK。 然后点击菜单或者快捷图标均可进入调试模式。 如果前面...
MATLAB | 全网最详细网... 一篇超超超长,超超超全面网络图绘制教程,本篇基本能讲清楚所有绘制要点&#...
IHome主页 - 让你的浏览... 随着互联网的发展,人们越来越离不开浏览器了。每天上班、学习、娱乐,浏览器...
TCP 协议 一、TCP 协议概念 TCP即传输控制协议(Transmission Control ...
营业执照的经营范围有哪些 营业执照的经营范围有哪些 经营范围是指企业可以从事的生产经营与服务项目,是进行公司注册...
C++ 可变体(variant... 一、可变体(variant) 基础用法 Union的问题: 无法知道当前使用的类型是什...
血压计语音芯片,电子医疗设备声... 语音电子血压计是带有语音提示功能的电子血压计,测量前至测量结果全程语音播报࿰...
MySQL OCP888题解0... 文章目录1、原题1.1、英文原题1.2、答案2、题目解析2.1、题干解析2.2、选项解析3、知识点3...
【2023-Pytorch-检... (肆十二想说的一些话)Yolo这个系列我们已经更新了大概一年的时间,现在基本的流程也走走通了,包含数...
实战项目:保险行业用户分类 这里写目录标题1、项目介绍1.1 行业背景1.2 数据介绍2、代码实现导入数据探索数据处理列标签名异...
记录--我在前端干工地(thr... 这里给大家分享我在网上总结出来的一些知识,希望对大家有所帮助 前段时间接触了Th...
43 openEuler搭建A... 文章目录43 openEuler搭建Apache服务器-配置文件说明和管理模块43.1 配置文件说明...