腾讯混元最新图生视频模型!想动哪里点哪里 | 开源 腾讯混元最新图生视频模型!想动哪里点哪里 | 开源
admin
2024-03-16 15:43:59
0

腾讯投稿扔向凹非寺
量子位 | 公众号 QbitAI

单击画面中的火箭,输入“发射”prompt,瞬间起飞!



就连想要回收火箭,也只需要输入“Launch down”,再轻轻一点击:



马斯克看了都要自我怀疑一下,这火箭发射这么简单,自家星舰成功进入太空怎么那么难(开个小玩笑)??



以上效果来自一个新的图生视频模型Follow-Your-Click,由腾讯混元、清华大学和香港科技大学联合推出。

食用方法非常友好:

任意一张照片输入模型,只需要点击对应区域,加上少量简单的提示词,就可以让图片中原本静态的区域动起来,一键转换成视频。

就连《一人之下》的诸葛青和《唐伯虎点秋香》里的星爷也……



相关研究论文已经挂上了arXiv,GitHub上也放出代码,首日就小有战绩,揽星280+。



想动哪里点哪里,so easy

注意看这个楼梯上的动画小鼠形象,只需单击小鼠腹部,再输入“跳舞”,它就能瞬间扭动起来。

同时,画面的其他部分保持原有的静止状态。



不只是人物、卡通形象可以控制,图片的其余部分,通过点击和输入简短提示词,也能动起来。

,时长00:08

进一步测试,是可以实际感知到Follow-Your-Click对画面动态部分的精准控制的。

同样是鸟图,点击小鸟,输入“动动脑袋”:



输入“扇扇翅膀”:



输入“跳个舞吧”:



输入“不如摇摆”:



总结,就是想要哪里动,就点哪里。

研究团队还将Follow-Your-Click和其他视频生成模型进行了同题对比,以下是实验效果:





一键点,万物动

此前图生视频模型的生成方法,一般都需要用提示词描述运动区域,并提供运动指令的详细描述。

从生成效果来看,过往技术在指定图像移动部分缺乏控制,往往是让整个场景动起来,而不是具体到图像上的某个区域。



为了解决这些问题,腾讯混元大模型团队、清华和港科大联合项目提出了更实用和可控的图像到视频生成模型Follow-Your-Click。

实现方式上,Follow-Your-Click首先整合了图像语义分割工具Segment-Anything,将用户点击转换为二进制区域Mask,将其作为网络条件之一。

其次,为了更好地正确学习时间相关性,团队还引入了一种有效的首帧掩模策略

这种方式对模型生成的视频质量有较大的性能提升,不论是在畸变还是首帧的重构效果上都有很大的帮助。

此外,为了实现简短提示词的文字驱动能力,研究团队构建了一个名为WebVid-Motion的数据集——利用大模型来过滤和注视视频标题,并强调人类情感、动作和常见物体的运动,通过数据集提升模型对动词的响应和识别能力。

联合研究团队还设计了一个运动增强模块,主要用途一方面是更好地适应数据集,一方面用来增强模型对运动相关词语的响,同时理解简短提示指令。



在视频中,不同类型的物体可能表现出不同的运动速度。

以往的工作中,每秒帧数(FPS)主要作为全局的动作幅度控制参数,间接调整多个物体的运动速度。然而,它无法有效控制移动物体的速度。

举个例子,一个展示雕塑的视频可能具有很高的FPS,但是没有物体的运动速度。

为了实现对运动速度的准确学习,研究团队提出了一种基于光流的运动幅度控制,使用光流模长作为新的视频运动幅度控制参数。



以上这些新提出的方法,加上各模块的组合,Follow-Your-Click大大提升了可控图生视频的效率和可控性,最终实现了用简单文本指令来实现图像局部动画。

One More Thing

小道消息!

Follow-Your-Click联合项目组中的腾讯混元大模型团队,正努力研究和探索多模态技术。

此前,该团队已经作为技术合作伙伴,支持了《人民日报》的原创视频《江山如此多娇》。

该说不说,2024年,一定是多模态卷到爆炸的一年……

项目主页:https://follow-your-click.github.io/
论文链接:https://arxiv.org/pdf/2403.08268.pdf
GitHub:https://github.com/mayuelala/FollowYourClick

相关内容

热门资讯

linux入门---制作进度条 了解缓冲区 我们首先来看看下面的操作: 我们首先创建了一个文件并在这个文件里面添加了...
C++ 机房预约系统(六):学... 8、 学生模块 8.1 学生子菜单、登录和注销 实现步骤: 在Student.cpp的...
A.机器学习入门算法(三):基... 机器学习算法(三):K近邻(k-nearest neigh...
数字温湿度传感器DHT11模块... 模块实例https://blog.csdn.net/qq_38393591/article/deta...
有限元三角形单元的等效节点力 文章目录前言一、重新复习一下有限元三角形单元的理论1、三角形单元的形函数(Nÿ...
Redis 所有支持的数据结构... Redis 是一种开源的基于键值对存储的 NoSQL 数据库,支持多种数据结构。以下是...
win下pytorch安装—c... 安装目录一、cuda安装1.1、cuda版本选择1.2、下载安装二、cudnn安装三、pytorch...
MySQL基础-多表查询 文章目录MySQL基础-多表查询一、案例及引入1、基础概念2、笛卡尔积的理解二、多表查询的分类1、等...
keil调试专题篇 调试的前提是需要连接调试器比如STLINK。 然后点击菜单或者快捷图标均可进入调试模式。 如果前面...
MATLAB | 全网最详细网... 一篇超超超长,超超超全面网络图绘制教程,本篇基本能讲清楚所有绘制要点&#...
IHome主页 - 让你的浏览... 随着互联网的发展,人们越来越离不开浏览器了。每天上班、学习、娱乐,浏览器...
TCP 协议 一、TCP 协议概念 TCP即传输控制协议(Transmission Control ...
营业执照的经营范围有哪些 营业执照的经营范围有哪些 经营范围是指企业可以从事的生产经营与服务项目,是进行公司注册...
C++ 可变体(variant... 一、可变体(variant) 基础用法 Union的问题: 无法知道当前使用的类型是什...
血压计语音芯片,电子医疗设备声... 语音电子血压计是带有语音提示功能的电子血压计,测量前至测量结果全程语音播报࿰...
MySQL OCP888题解0... 文章目录1、原题1.1、英文原题1.2、答案2、题目解析2.1、题干解析2.2、选项解析3、知识点3...
【2023-Pytorch-检... (肆十二想说的一些话)Yolo这个系列我们已经更新了大概一年的时间,现在基本的流程也走走通了,包含数...
实战项目:保险行业用户分类 这里写目录标题1、项目介绍1.1 行业背景1.2 数据介绍2、代码实现导入数据探索数据处理列标签名异...
记录--我在前端干工地(thr... 这里给大家分享我在网上总结出来的一些知识,希望对大家有所帮助 前段时间接触了Th...
43 openEuler搭建A... 文章目录43 openEuler搭建Apache服务器-配置文件说明和管理模块43.1 配置文件说明...