面壁不只要做中国Mistral,还要超过它 面壁不只要做中国Mistral,还要超过它
admin
2024-04-13 11:41:51
0


作者 | 周一笑
邮箱 | zhouyixiao@pingwest.com

时隔七十多天,面壁在发布了MiniCPM-2B后又带来四个特性鲜明的模型,同时它还官宣了数亿元的新融资。

此次融资由春华创投、华为哈勃领投,北京市人工智能产业投资基金等跟投,知乎作为战略股东持续跟投支持。这是其成立后最大的一笔融资。这家常被拿来对标Mistral的公司,并不满足于只做一个“中国Mistral”,弹药充足后,它要把“打精锐”这件事进行到底了。

1

小而强,小而全:小钢炮四连发

今年二月初,面壁智能发布了2B参数的开源端侧模型MiniCPM-2B,并称之为“小钢炮”,在更小参数的基础上实现了Mistral-7B、Llama2-13B的性能。自发布以来,MiniCPM-2B多次登顶 GitHub Trending,还收获了HuggingFace联合创始人Thomas Wolf的称赞。

时隔七十多天,面壁智能一次性发布了四个模型,我们来看看它们的表现。

多模态模型 MiniCPM-V 2.0

MiniCPM-V 2.0是可部署在手机端的多模态大模型,规模只有2.8B左右,但在主流的评测中取得了很好的分数。OpenCompass榜单,综合11个主流评测基准,通用能力超过Qwen-VL-Chat-10B、CogVLM-Chat-17B、Yi-LV-34B。

面壁智能特别强调了MiniCPM-V 2.0的幻觉概率很低,与持平GPT-4V,在评估大模型幻觉的Object HalBench榜单上,MiniCPM-V 2.0是14.5%,GPT-4V是13.6%。


MiniCPM-V2.0在OCR能力方面,场景图片文字识别榜单TextVQA超越了全系13B量级模型,比肩Gemini Pro。MiniCPM-V2.0 还加强了对于长图的识别和理解,以及对各种尺寸图片的兼容进行了优化,支持从448x448像素,到180万像素的高清大图,也支持1:9的极限宽高比。


长文本模型MiniCPM-2B-128K

长文本已然成为大模型的一种“标配”,而MiniCPM-2B-128K用2B的规模实现了128K长文本能力,在InfiniteBench榜单的平均成绩超过Yarn-Mistral-7B-128K、Yi-6B-200K、ChatGLM3-6B-128K、LWM-Text-128K,在7B以下的模型中做到了最好的表现。

“长文本这件事情才刚刚开始,虽然是2B的模型,还是需要非常大的内存才能让模型跑起来,下一步会进一步做更加极致的技术探索,让长文本模型在端侧跑起来。”


MOE版本 MiniCPM-MoE-8x2B MoE

MiniCPM-MoE-8x2B MoE,引入了MoE架构,性能增强,能让模型在原有基础上平均水平有4.5%的提高。相比完全从头开始训练,节省训练成本。通过MOE的方式,平均激活参数只有4B,但是比LiaMA2-34B、Gemma-7B等模型效果都要好,推理成本仅为Gemma-7B的69.7%。

“更Mini”的MiniCPM-1.2B

MiniCPM-1.2B参数减少了一半,而能够保持仍保持上一代2.4B模型87%的综合性能,这其中涉及许多优化,例如把词表中不高频的词替换。在多个榜单测试中,MiniCPM-1.2B综合性能超过Qwen1.8B、llama2-7B,甚至超过llama2-13B。


通过让1.2B的模型效果超过了1.8B的模型,实现了手机端 25tokens/s。随着模型的变小,成本、和内存占用也随之降低,相比于MiniCPM-2.4B,MiniCPM-1.2B内存减少51.9%,成本下降60%。

“模型小了,使用场景大了”。MiniCPM-1.2B除了能够支持配置更低的手机,在诸如情感陪护、实时翻译等应用场景都有着广泛的应用。“他们对于更小更强的模型都是非常期待的”。

1

不止于“中国版Mistral”

面壁智能CEO李大海将此次发布的系列模型总结为“小而强,小而全”,并再次强调了面壁智能的底层逻辑:一家追求高效大模型的公司。这很容易让人联想到同样是追求高效,同样做小参数高性能模型,同样受到开源社区追捧的“欧洲Open AI”Mistral。

不过面壁智能显然不想只是做第二家Mistral,这家聚集了中国最早一批研究大模型的技术人员的公司有着自己鲜明的技术判断和产品路线。

面壁智能高效训练的方法论体现在模型训练实验科学化的思路上,在基础设施上,面壁智能很早就自研了BMTrain等框架来支撑大模型的训练,从而降低训练成本。

在算法层面上,面壁智能通过进行大量的“沙盒实验”,对模型批次大小、超参数配置等最优训练配置进行了探索,从理论上寻找最优解,用更小的成本和代价去搞清楚规律。比如在较小参数的模型上做大量沙盒实验,通过科学化实验化的“炼丹”,用小模型预估更大规模参数模型的性能、参数方案,最终实现以小博大。

“持续研究更好的ScalingLaw,用更大的模型压缩效果,用更少的数据训练出更好的模型、更小的模型。”

此外,在基础模型之外,面壁的另一个重点方向在AI Agent,这也与Mistral很不同。

面壁智能是最早进行Agent研究的团队之一,ChatDev是面壁智能联合OpenBMB 及清华大学NLP实验室开源的大模型+Agent项目,ChatDev就像是多个Agent协作运营的软件开发公司,用户指定需求后,不同角色的Agent进行交互式协同,产出包括源代码、环境依赖说明书、用户手册在内的完整软件。通过多智能体协作,可以在现有模型中产生更好的效果。这也就是吴恩达近期在红杉AI峰会上所说的GPT3.5 + Agentic Workflow >GPT4,实际上,吴恩达在演讲中直接使用了ChatDev作为案例。

Agent是面壁智能商业化的重要突破口,ChatDev也从论文研究、开源产品,开始走向了商业化,面壁智能推出了AI Agent的SaaS化产品ChatDev,尝试帮助软件开发者和创业者以更低成本和门槛完成软件开发工作。与此同时,面壁智能也在探索大模型+Agent在金融、教育、政务、智能终端等场景的商业应用落地。

OpenAI用大力出奇迹提供了一条通往AGI的路径,但抵达彼岸的方法并非只有一条。在疯狂烧钱拼算力的大模型行业,仅靠单一维度的提升会出现瓶颈,而且这种提升可能会受到边际效益递减的影响。面壁智能用实验科学的方式做基础模型研究,强调高效,某种程度上追求的是一种“性价比”。在相同资源的情况下,面壁可以利用“高效”的杠杆获得更高的收益。MiniCPM系列模型已经证明了在相同的资源内把模型做得更好是可行的,接下来可以期待面壁延续这个思路,拿出GPT-4级别的模型产品。

相较之下,Mistral虽然在推出了号称挑战GPT-4的大模型产品,但不仅在商业模式上越来越却像OpenAI,Mistral Large也不再开源,这让人开始质疑,拿了微软投资之后的Mistral,是否走上了OpenAI的老路,最终成为微软的又一个“附庸”。

如果说追求高效是面壁智能和Mistral相同之处,而对于Agent的研究投入和积累,又让面壁这家公司拥有了不同的商业化道路。从网站到App,我们见证了互联网原生应用主要载体的变迁,在AI时代,Agent具备了新的潜力,小钢炮们又成为挖掘这种潜力的最佳载体。

从对标Mistral 、再到超越Mistral,面壁智能或许选择了一条少有人走的路,但它已经有了足够的底气继续走下去。


相关内容

热门资讯

linux入门---制作进度条 了解缓冲区 我们首先来看看下面的操作: 我们首先创建了一个文件并在这个文件里面添加了...
C++ 机房预约系统(六):学... 8、 学生模块 8.1 学生子菜单、登录和注销 实现步骤: 在Student.cpp的...
A.机器学习入门算法(三):基... 机器学习算法(三):K近邻(k-nearest neigh...
数字温湿度传感器DHT11模块... 模块实例https://blog.csdn.net/qq_38393591/article/deta...
有限元三角形单元的等效节点力 文章目录前言一、重新复习一下有限元三角形单元的理论1、三角形单元的形函数(Nÿ...
Redis 所有支持的数据结构... Redis 是一种开源的基于键值对存储的 NoSQL 数据库,支持多种数据结构。以下是...
win下pytorch安装—c... 安装目录一、cuda安装1.1、cuda版本选择1.2、下载安装二、cudnn安装三、pytorch...
MySQL基础-多表查询 文章目录MySQL基础-多表查询一、案例及引入1、基础概念2、笛卡尔积的理解二、多表查询的分类1、等...
keil调试专题篇 调试的前提是需要连接调试器比如STLINK。 然后点击菜单或者快捷图标均可进入调试模式。 如果前面...
MATLAB | 全网最详细网... 一篇超超超长,超超超全面网络图绘制教程,本篇基本能讲清楚所有绘制要点&#...
IHome主页 - 让你的浏览... 随着互联网的发展,人们越来越离不开浏览器了。每天上班、学习、娱乐,浏览器...
TCP 协议 一、TCP 协议概念 TCP即传输控制协议(Transmission Control ...
营业执照的经营范围有哪些 营业执照的经营范围有哪些 经营范围是指企业可以从事的生产经营与服务项目,是进行公司注册...
C++ 可变体(variant... 一、可变体(variant) 基础用法 Union的问题: 无法知道当前使用的类型是什...
血压计语音芯片,电子医疗设备声... 语音电子血压计是带有语音提示功能的电子血压计,测量前至测量结果全程语音播报࿰...
MySQL OCP888题解0... 文章目录1、原题1.1、英文原题1.2、答案2、题目解析2.1、题干解析2.2、选项解析3、知识点3...
【2023-Pytorch-检... (肆十二想说的一些话)Yolo这个系列我们已经更新了大概一年的时间,现在基本的流程也走走通了,包含数...
实战项目:保险行业用户分类 这里写目录标题1、项目介绍1.1 行业背景1.2 数据介绍2、代码实现导入数据探索数据处理列标签名异...
记录--我在前端干工地(thr... 这里给大家分享我在网上总结出来的一些知识,希望对大家有所帮助 前段时间接触了Th...
43 openEuler搭建A... 文章目录43 openEuler搭建Apache服务器-配置文件说明和管理模块43.1 配置文件说明...