阿里又整活儿：一张人脸一句话就能跳《擦玻璃》装束布景放纵换！

时间：2023-12-13 06:11 点击次数：132

　　况且随着prompt的改变，人物靠山和身上的衣服也会随之爆发波折。例如所有人再换两句：

　　这即是阿里最新的一项商量DreaMoving，主打的便是让任何人、随时且遍地地跳舞。

　　项目一出，也是激起了不少网友的眷注，有人在看过恶果之后直呼“Unbelievable”~

　　只管像Stable Video Diffusion和Gen2等文本到视频（text-to-video，T2V）模型的发挥，在视频天才方面得到了突破性开展，但此刻仍旧有诸多离间提供面对。

　　比如在数据集方面，当前短缺开源的人类舞蹈视频数据集以及难以赢得呼应的仔细文本描画，这就使得让模型们去天生各类性、帧相同性、时长更长的视频成为离间。

　　商酌者们最先从互联网汇集了简略1000个高材料的人类舞蹈视频。尔后，全部人将这些视频瓦解成或者6000个短视频（每个视频8至10秒），以保障视频片段中没有转场和特地成效，如此有利于光阴模块的磨炼。

　　此外，为了天生视频的文本描摹，我们应用了Minigpt-v2看成视频字幕器（video captioner），更加给与了“grounding”版本，指令是周密描画这个帧。

　　基于要害帧要旨帧天生的字幕代表了全部视频片段的形容，吃紧是无误形容中央和后台内容。

　　此中，Video ControlNet是在每U-Net块之后注入勾当块（Motion Block）的图像驾御收集，将把握序列（姿势或深度）处理为特殊的期间残差。

　　而Content Guider则是将输入文本指导和轮廓神色（如人脸）传输到内容嵌入中。

　　在如许操作之下，DreaMoving便恐怕在给定引导序列和贞洁的内容描述（如文本和参考图像）看成输入的情景下天赋高质量、高保真度的视频。

阿里又整活儿：一张人脸一句话就能跳《擦玻璃》 装束布景放纵换！