主页>快讯> 正文>

无需微调，一张照片即可换脸、换背景，NUS等团队破局个性化视频生成

2023-05-29 13:35 | 来源:IT之家 | 编辑：如思 | 阅读量：19065 |

为了克服这个问题，研究人员们开始探索额外的控制信号和对现有内容进行编辑的方法。这两个方向在一定程度上实现了生成过程的可控性，但仍然需要依赖文本来描述目标生成内容。

在实际应用中，我们面临着一个新的需求:如果用户想要生成的内容无法用语言描述呢？

例如，用户想生成某一个普通人的视频，但仅在输入文本中使用普通人的名字是无意义的，因为语言模型无法识别不在训练语料中的个体姓名。

针对这个问题，一种可行的解决方案是基于给定个体训练个性化的模型。

这项研究为个性化视频编辑领域带来了新的可能性，使得生成个性化内容变得更加简便和高效。

介绍

Make-A-Protagonist 将视频分为主角和背景，对二者使用视觉或语言参考信息，从而实现主角编辑、背景编辑和特定主角的文生视频。

主角编辑功能允许用户使用相同的场景描述，但通过参考图像来替换视频中的主角。这意味着用户可以使用自己选择的图像来替换视频中的主要角色。

背景编辑功能允许用户使用与原始视频相同的主角描述，并使用原始视频帧作为视觉信息，但可以更改对场景的文字描述(例如「in the rain」)。这样，用户可以保持相同的主角，但改变场景的描述，营造出不同的视觉效果。

特定主角的文生视频功能将主角编辑和背景编辑结合起来。用户可以使用参考图像作为主角，并对场景进行描述，从而创造出全新的视频内容。此外，对于多主角视频，Make-A-Protagonist 还可以对单个或多个角色进行更改。

与 DreamBooth 和 Dreamix 不同，Make-A-Protagonist 仅需要单张参考图像，不需要对每个概念进行微调，因此在应用场景上更加灵活多样。Make-A-Protagonist 为用户提供了一种简便而高效的方式来实现个性化的视频编辑和生成。

方法

Make-A-Protagonist 使用多个强大的专家模型，对原视频、视觉和语言信息进行解析，并结合基于视觉语言的视频生成模型和基于掩码的去噪采样算法，实现通用视频编辑。该模型主要由三个关键部分组成:原视频解析，视觉和语言信息解析，以及视频生成。

具体来说，Make-A-Protagonist 推理过程包括以下三步:首先使用 BLIP-2, GroundingDINO、Segment Anything 和 XMem 等模型对原视频进行解析，获得视频的主角掩码，并解析原视频的控制信号。

接下来，使用 CLIP 和 DALL-E 2 Prior 对视觉和语言信息进行解析。最后，使用基于视觉语言的视频生成模型和基于掩码的去噪采样算法，利用解析信息生成新的内容。

Make-A-Protagonist 的创新之处在于引入了基于视觉语言的视频生成模型和基于掩码的去噪采样算法，通过整合多个专家模型并解析、融合多种信息，实现了视频编辑的突破。

这些模型的运用使得该系统更加精准地理解原视频、视觉和语言信息，并能够生成高质量的视频内容。

Make-A-Protagonist 为用户提供了一款强大而灵活的工具，让他们能够轻松进行通用的视频编辑，创作出独特而令人惊艳的视觉作品。

1.原视频解析

原视频解析的目标是获取原视频的语言描述、主角文字描述、主角分割结果以及 ControlNet 所需的控制信号。

针对 caption 和主角文字描述，Make-A-Protagonist 采用了 BLIP-2 模型。

通过对 BLIP-2 的图像网络进行修改，实现了对视频的解析，并使用 captioning 模式生成视频的描述，这些描述在训练和视频编辑中用于视频生成网络。

对于主角文字描述，Make-A-Protagonist 使用 VQA 模式，提出问题:「视频的主角是什么？」并使用答案进一步解析原视频中的主角信息。

在原视频中的主角分割方面，Make-A-Protagonist 利用上述得到的主角文字描述，在第一帧中使用 GroundingDINO 模型来定位相应的检测内容，并使用 Segment Anything 模型获得第一帧的分割掩码。然后，借助跟踪网络，Make-A-Protagonist 得到整个视频序列的分割结果。

除此之外，Make-A-Protagonist 利用 ControlNet 来保留原视频的细节和动作，因此需要提取原视频的控制信号。文中使用了深度信号和姿态信号。

通过这些创新的解析方法和技术，Make-A-Protagonist 能够准确地解析原视频的语言描述、主角信息和分割结果，并提取控制信号，为后续的视频生成和编辑打下了坚实的基础。

2.视觉和语言信息解析

对于视觉信号，Make-A-Protagonist 在本文中采用 CLIP image embedding 作为生成条件，为了去除参考图像背景的影响，类似于原视频解析，Make-A-Protagonist 使用 GroundingDINO 和 Segment Anything 得到参考图像主角的分割掩码，使用掩码将分割后的图像输入 CLIP 视觉模型，以获取参考视觉信息。

语言信息主要用于控制背景，本文将语言信息用于两方面，一方面使用 CLIP 语言模型提取特征，作为注意力网络的 key 和 value。

另一方面，使用 DALL-E 2 Prior 网络，将语言特征转化为视觉特征，从而增强表征能力。

3.视频生成

3.1视频生成网络训练

为了充分利用视觉信息，Make-A-Protagonist 使用 Stable UnCLIP 作为预训练模型，并对原视频进行微调，从而实现利用视觉信息进行视频生成。

在每个训练迭代中，Make-A-Protagonist 提取视频中随机一帧的 CLIP image embedding，将其作为视觉信息输入到 Residual block 中。

3.2基于掩码的去噪采样

为融合视觉信息和语言信息，本文提出基于掩码的去噪采样，在特征空间和隐空间对两种信息进行融合。

具体来说，在特征域，Make-A-Protagonist 使用原视频的主角掩码，将主角对应部分使用视觉信息，背景对应部分使用 DALL-E 2 Prior 转化后的语言信息:

在隐空间中，Make-A-Protagonist 将仅使用视觉信息的推理结果和经过特征融合的推理结果按照原视频的主角掩码进行融合:

通过特征空间和隐空间的信息融合，生成的结果更加真实，并且与视觉语言表述更加一致。

总结

Make-A-Protagonist 引领了一种全新的视频编辑框架，充分利用了视觉和语言信息。

该框架为实现对视觉和语言的独立编辑提供了解决方案，通过多个专家网络对原视频、视觉和语言信息进行解析，并采用视频生成网络和基于掩码的采样策略将这些信息融合在一起。

Make-A-Protagonist 展现了出色的视频编辑能力，可广泛应用于主角编辑、背景编辑和特定主角的文生视频任务。

Make-A-Protagonist 的出现为视频编辑领域带来了新的可能性。它为用户创造了一个灵活且创新的工具，让他们能够以前所未有的方式编辑和塑造视频内容。

无论是专业编辑人员还是创意爱好者，都能够通过 Make-A-Protagonist 打造出独特而精彩的视觉作品。

参考资料:

声明：本网转发此文章，旨在为读者提供更多信息资讯，所涉内容不构成投资、消费建议。文章事实如有疑问，请与有关方核实，文章观点非本网观点，仅供读者参考。

上一篇：京东健康携手华为WATCH4系列推出“微体检报告”解读服务共建数智健康管下一篇：返回列表

热点资讯

1
京东健康携手华为WATCH4系列推出“微体检报告”解读服务共建数智健康管

$vo.description|msubstr=0,60,'utf-8',false}
2
壹号本OnexPlayer2Pro掌机外观公布：搭载R77840U，三种

$vo.description|msubstr=0,60,'utf-8',false}
3
微软解释“有可用更新立即安装”选项，可默认启用Win11新功能/特性

，微软今年4月面向Win1122H2系统发布KB5025305更新，在WindowsUpdate页面中新增选项“有可用更
4
QBot木马升级为勒索工具，滥用Win10写字板可执行文件、劫持DLL感

，根据国外科技媒体BleepingComputer报道，安全专家和Cryptolaemus成员ProxyLife发现了新
5
周鸿祎训练数字人代替演讲！直言有危机感不想被数字人“干掉”

，近日，2023黑马AIGC产业大会在北京举行，有关注大会的同学可能发现了，360集团创始人周鸿祎是以数字人的方式出席大
6
京东汽车618开门红即将开启：立省不止30%北京地区轮胎、保养买一赠一

一年一度的京东618已经拉开帷幕，想入手的东西都加购了吗？5月31日晚8点，京东汽车618开门红阶段将正式开启，京东汽车
7
DSCC：近两年OLED电视将迎来大降价

，2022年对于显示器厂商及消费者都相当艰难，低需求导致工厂利用率下降，进而导致显示器面板上涨，最终这些成本又被转嫁到消
8
神舟十六号已完成飞行任务全系统发射演练，航天员名单明日公布

感谢IT之家网友雨雪载途的线索投递！，据央视报道，我国航天工作者已于5月26日在酒泉卫星发射中心完成了神舟十六号载人
9
长城人寿拟增资10.93亿元公司称为满足资本充足率要求

近日，长城人寿保险股份有限公司(以下简称“长城人寿”)发布关于变更注册资本有关情况的信息披露公告。公告显示，本次长城人寿
10
绿地集团积极开辟新赛道推动能源产业迈上新台阶

5月29日，绿地集团披露能源产业转型发展的最新进展，明确能源产业作为绿地“新赛道”的重要组成部分，将持续发力推进高质量发

精彩推荐

1
植入器械在磁共振环境下究竟安全吗？

植入器械是否仍然是磁共振检查的禁忌？佩戴各类植入物的患者到底能否安全地接受磁共振检查？这些问题，随着近年来磁共振成像在临
2
如何破局"理财存款化"？"零售之王"再出两大硬招

“理财存款化”正在成为我国商业银行面临的共同压力，这在今年一季度表现得尤为明显。今年一季度我国住户存款增量达到9.9
3
东风汽车：东风武汉轻型汽车有限公司与公司无任何股权关系和业务往来

关注到武汉市财政局、武汉长江资产经营管理有限公司在《长江日报》发布债务催收联合公告(以下简称“联合公告”)，债务单位涉及
4
比亚迪：自主研发了常压油箱的燃油蒸汽排放控制技术能符合蒸发排放法规标准

比亚迪在互动平台表示，比亚迪DM-i是基于电动车平台设计的双电机串并联架构，实现了发动机和车轮的解耦(脱开连接)，在EV
5
谷歌Pixel手机“AtaGlance”功能开始显示“拼车”状态更新

，谷歌Pixel手机的“AtaGlance”功能已经推出了一段时间，现在“拼车”开关开始出现在实际的Pixel设备上，其
6
我国计划在2030年前实现首次载人登月，已部署开展各项研制建设

，今天上午9时，神舟十六号载人飞行任务新闻发布会在酒泉卫星发射中心召开。中国载人航天工程办公室副主任林西强表示，近期
7
天津普林拟4.23亿溢价167%并购泰和电路近三年业绩巨幅波动账面现金仅

TCL科技间接控股的印制电路板公司天津普林(行情002134,诊股)(002134.SZ)推出重大资产重组。日前，天
8
数据治理需技术政策双管齐下

进入信息化时代，数字经济蓬勃发展，数据的作用愈发凸显，数据要素价值更加突出。但同时，也要看到数据的“隐患”:若被别有用心
9
聚焦科技创新建立共赢合作机制

“光伏等新能源正站上时代的C位。”5月24日-26日，第十六届国际太阳能光伏与智慧能源(上海)大会暨展览会(SNEC)在
10
5月28日上市公司重要公告汇总

深桑达A:刘桂林辞去董事长等职务深桑达A公告，董事长刘桂林因工作变动原因提请辞去公司第九届董事会董事长、董事，及董事

无需微调，一张照片即可换脸、换背景，NUS等团队破局个性化视频生成

$vo.description|msubstr=0,60,'utf-8',false}

$vo.description|msubstr=0,60,'utf-8',false}

，微软今年4月面向Win1122H2系统发布KB5025305更新，在WindowsUpdate页面中新增选项“有可用更

，根据国外科技媒体BleepingComputer报道，安全专家和Cryptolaemus成员ProxyLife发现了新

，近日，2023黑马AIGC产业大会在北京举行，有关注大会的同学可能发现了，360集团创始人周鸿祎是以数字人的方式出席大

一年一度的京东618已经拉开帷幕，想入手的东西都加购了吗？5月31日晚8点，京东汽车618开门红阶段将正式开启，京东汽车

，2022年对于显示器厂商及消费者都相当艰难，低需求导致工厂利用率下降，进而导致显示器面板上涨，最终这些成本又被转嫁到消

感谢IT之家网友雨雪载途的线索投递！ ，据央视报道，我国航天工作者已于5月26日在酒泉卫星发射中心完成了神舟十六号载人

近日，长城人寿保险股份有限公司(以下简称“长城人寿”)发布关于变更注册资本有关情况的信息披露公告。公告显示，本次长城人寿

5月29日，绿地集团披露能源产业转型发展的最新进展，明确能源产业作为绿地“新赛道”的重要组成部分，将持续发力推进高质量发

植入器械是否仍然是磁共振检查的禁忌？佩戴各类植入物的患者到底能否安全地接受磁共振检查？这些问题，随着近年来磁共振成像在临

“理财存款化”正在成为我国商业银行面临的共同压力，这在今年一季度表现得尤为明显。 今年一季度我国住户存款增量达到9.9

关注到武汉市财政局、武汉长江资产经营管理有限公司在《长江日报》发布债务催收联合公告(以下简称“联合公告”)，债务单位涉及

比亚迪在互动平台表示，比亚迪DM-i是基于电动车平台设计的双电机串并联架构，实现了发动机和车轮的解耦(脱开连接)，在EV

，谷歌Pixel手机的“AtaGlance”功能已经推出了一段时间，现在“拼车”开关开始出现在实际的Pixel设备上，其

，今天上午9时，神舟十六号载人飞行任务新闻发布会在酒泉卫星发射中心召开。 中国载人航天工程办公室副主任林西强表示，近期

TCL科技间接控股的印制电路板公司天津普林(行情002134,诊股)(002134.SZ)推出重大资产重组。 日前，天

进入信息化时代，数字经济蓬勃发展，数据的作用愈发凸显，数据要素价值更加突出。但同时，也要看到数据的“隐患”:若被别有用心

“光伏等新能源正站上时代的C位。”5月24日-26日，第十六届国际太阳能光伏与智慧能源(上海)大会暨展览会(SNEC)在

深桑达A:刘桂林辞去董事长等职务 深桑达A公告，董事长刘桂林因工作变动原因提请辞去公司第九届董事会董事长、董事，及董事

感谢IT之家网友雨雪载途的线索投递！，据央视报道，我国航天工作者已于5月26日在酒泉卫星发射中心完成了神舟十六号载人

“理财存款化”正在成为我国商业银行面临的共同压力，这在今年一季度表现得尤为明显。今年一季度我国住户存款增量达到9.9

，今天上午9时，神舟十六号载人飞行任务新闻发布会在酒泉卫星发射中心召开。中国载人航天工程办公室副主任林西强表示，近期

TCL科技间接控股的印制电路板公司天津普林(行情002134,诊股)(002134.SZ)推出重大资产重组。日前，天

深桑达A:刘桂林辞去董事长等职务深桑达A公告，董事长刘桂林因工作变动原因提请辞去公司第九届董事会董事长、董事，及董事