清华系多模态大模型公司刚融了数亿元!放话“今年达到Sora效果” 清华多模态大模型 云创多模态大模型
admin
2024-03-12 20:16:15
0

衡宇 发自 凹非寺
量子位 | 公众号 QbitAI

清华系多模态大模型公司,又拿钱了!

生数科技,师出清华朱军团队,是国内最早布局多模态大模型的团队之一。

市场消息传来,这家公司刚刚完成新一轮数亿元融资。本轮融资由启明创投领投,达泰资本、鸿福厚德、智谱AI、老股东BV百度风投和卓源亚洲继续跟投。

生数方面的说法是,本轮融资将主要用于多模态基础大模型的迭代研发、应用产品创新及市场拓展。

此前,生数已经在文生图、文生3D模型、文生视频方面都有研究成果对外释出。

2022年9月,生数科技创始成员就提出了基于Transformer的网络架构U-ViT,这与Sora和Stable Diffusion3背后采用的Diffusion Transformer架构DiT,在架构思路与实验路径上完全一致。

对此,生数科技CEO唐家渝表示:

我们积累了完整高效的工程化经验,拥有在大规模GPU集群上实现高效兼容、低成本的模型训练经验,整体上来讲,我们追赶Sora肯定比追赶GPT-4轻松很多。今年一定能达到Sora目前版本的效果,很难说是三个月还是半年(笑),但这件事我们的信心还是非常足的。

2022年已提出类DiT架构U-ViT

在扩散模型方面,生数科技团队是国内率先开启该方向研究的团队,成果涉及骨干网络、高速推理算法、大规模训练等全栈技术方向。

2022年9月,生数创始成员提出了基于Transformer的网络架构U-ViT时,U-ViT就在千万至数亿参数量级范围内验证了极强的可扩展性(scaling up)。

这项工作在CVPR 2023发表,早于DiT。

2023年3月,团队又开源了全球首个基于Diffusion Transformer架构(U-ViT)的多模态扩散大模型UniDiffuser,在参数量和训练数据规模上与Stable Diffusion直接对齐。



从架构上来看,UniDiffuser比最近公开论文的Stable Diffusion3(采用DiT架构)领先了一年。

此外,除了单向的文生图以外,Unidiffuser支持更通用的图文任务,能够实现图生文、图文联合生成、图文改写等多种功能。



持续进行Scale up

在统一化架构的思路下,生数科技持续进行Scale up

在图文模型的训练中,其模型参数量从最早开源版的1B不断扩展至3B、7B、10B及以上,使得模型在美学性、多元风格、语义理解等方面实现快速稳定的提升。

同时在此基础上,通过拓展空间维度和时间维度,逐步实现3D生成和视频生成模型的训练。

依托底层U-ViT架构的创新尝试,截至2023年9月,生数科技推出了基于统一的多模态多任务框架的产业级通用基础大模型(闭源版),全链路自主训练、自主研发,在图像生成、3D生成、视频生成等多项任务中位居前列。



目前的成果是,生数的3D生成,已经可实现高精度与最快10秒级的模型生成。

此外,生数团队还推出全球首个4D动画生成、可控3D场景编辑等工作。

而视频生成方面,也已实现短视频的编辑与生成能力,在画面美观度、连贯性方面实现了突破。



近期将重点突破长视频生成能力

在商业化落地方面,依托于MaaS(模型即服务)能力,生数科技在2B、2C端同时发力。

一方面以API的形式向B端机构直接提供模型能力,另一方面打造垂类应用产品,按照订阅等形式收费。

目前公司已与多家游戏公司、个人终端厂商、互联网平台等B端机构开展合作,开放模型服务,提供AIGC个性化体验、定制化内容生产等方面的能力。

去年,面向艺术设计、游戏制作、影视动画、社交娱乐等创意领域,生数科技上线了两款工具产品:

视觉创意设计平台PixWeaver3D资产创建工具VoxCraft

而学术层面上,团队于ICML、NeurIPS、ICLR等人工智能顶会发表相关论文近30篇,其中提出的免训练推理算法Analytic-DPM、DPM-Solver等突破性成果,获得ICLR杰出论文奖,并被OpenAI、苹果、Stability.ai等机构采用,并被DALL·E 2、Stable Diffusion等项目采用。

那么,接下来的路是什么?

谈到对未来的规划,生数科技始终坚持“原生多模态”方向。

一边,是对产品端持续迭代;

另一边,则是在基础模型层面持续优化,主要是提升语义理解、可控性、美观度方面的生成效果。

其实,Sora出现前,生数内部主要聚焦于短视频,但现在公司会投入更多资源在长视频上,架构、数据使用调优方面,团队已经做过不少探索,也踩过许多坑(很多现在都已经解决了)。

但OpenAI砸大钱捧出一个Sora,验证了这条路的正确性,也打消了团队的许多顾虑,“目前的视频生成长度在4-5秒左右,我们近期将重点突破长视频生成能力……尤其长视频画面的连贯性,我们还在做一系列攻克工作”。

相关内容

热门资讯

linux入门---制作进度条 了解缓冲区 我们首先来看看下面的操作: 我们首先创建了一个文件并在这个文件里面添加了...
C++ 机房预约系统(六):学... 8、 学生模块 8.1 学生子菜单、登录和注销 实现步骤: 在Student.cpp的...
A.机器学习入门算法(三):基... 机器学习算法(三):K近邻(k-nearest neigh...
数字温湿度传感器DHT11模块... 模块实例https://blog.csdn.net/qq_38393591/article/deta...
有限元三角形单元的等效节点力 文章目录前言一、重新复习一下有限元三角形单元的理论1、三角形单元的形函数(Nÿ...
Redis 所有支持的数据结构... Redis 是一种开源的基于键值对存储的 NoSQL 数据库,支持多种数据结构。以下是...
win下pytorch安装—c... 安装目录一、cuda安装1.1、cuda版本选择1.2、下载安装二、cudnn安装三、pytorch...
MySQL基础-多表查询 文章目录MySQL基础-多表查询一、案例及引入1、基础概念2、笛卡尔积的理解二、多表查询的分类1、等...
keil调试专题篇 调试的前提是需要连接调试器比如STLINK。 然后点击菜单或者快捷图标均可进入调试模式。 如果前面...
MATLAB | 全网最详细网... 一篇超超超长,超超超全面网络图绘制教程,本篇基本能讲清楚所有绘制要点&#...
IHome主页 - 让你的浏览... 随着互联网的发展,人们越来越离不开浏览器了。每天上班、学习、娱乐,浏览器...
TCP 协议 一、TCP 协议概念 TCP即传输控制协议(Transmission Control ...
营业执照的经营范围有哪些 营业执照的经营范围有哪些 经营范围是指企业可以从事的生产经营与服务项目,是进行公司注册...
C++ 可变体(variant... 一、可变体(variant) 基础用法 Union的问题: 无法知道当前使用的类型是什...
血压计语音芯片,电子医疗设备声... 语音电子血压计是带有语音提示功能的电子血压计,测量前至测量结果全程语音播报࿰...
MySQL OCP888题解0... 文章目录1、原题1.1、英文原题1.2、答案2、题目解析2.1、题干解析2.2、选项解析3、知识点3...
【2023-Pytorch-检... (肆十二想说的一些话)Yolo这个系列我们已经更新了大概一年的时间,现在基本的流程也走走通了,包含数...
实战项目:保险行业用户分类 这里写目录标题1、项目介绍1.1 行业背景1.2 数据介绍2、代码实现导入数据探索数据处理列标签名异...
记录--我在前端干工地(thr... 这里给大家分享我在网上总结出来的一些知识,希望对大家有所帮助 前段时间接触了Th...
43 openEuler搭建A... 文章目录43 openEuler搭建Apache服务器-配置文件说明和管理模块43.1 配置文件说明...