政安晨【零根本玩转各类开源AI项目】基于Ubuntu体系摆设Hallo ：针对肖像图像动画的分层音频驱动视觉合成

登录 · 发表于 2026-4-24 09:26:59

目次
配景先容
练习与推理
练习
推理
开始摆设
1. 把项目源码下载到当地
2. 创建 conda 环境
3. 使用 pip 安装软件包
4. 下载预练习模子
5. 预备推理数据
6. 运行推理
关于练习
为练习预备数据
练习

政安晨的个人主页：政安晨
  欢迎点赞✍批评⭐收藏
  盼望政安晨的博客可以或许对您有所裨益，如有不敷之处，欢迎在批评区提出指正！
  本文目的：在Ubuntu体系上摆设Hallo，实现练习和推理
<hr> 配景先容

由语音音频输入驱动的肖像图像动画范畴在天生传神的动态肖像方面取得了庞大希望。
这项研究深入探究了同步面部运动的复杂性，以及在基于扩散的方法框架内创建视觉上吸引人、时间上划一的动画。
  我们的创新方法摒弃了依靠参数模子举行中心面部表征的传统模式，采取了端到端扩散模式，并引入了分层音频驱动视觉合成模块，以进步音频输入和视觉输出（包罗嘴唇、心情和姿势运动）之间的对齐精度。我们提出的网络架构无缝集成了基于扩散的天生模子、基于 UNet 的去噪器、时序对齐技能和参考网络。所提出的分层音频驱动视觉合成技能可对心情和姿势多样性举行自顺应控制，从而更有效地实现针对差别身份的个性化定制。
  通过联合定性和定量分析的综合评估，我们的方法在图像和视频质量、嘴唇同步精度和动作多样性方面都有显着的提升。
  项目所在为：
https://github.com/fudan-generative-vision/hallo

https://github.com/fudan-generative-vision/hallo

本方法所发起的流程概览如下：
详细而言，我们将包罗肖像的参考图像与相应的音频输入整合，并用于驱动肖像动画。
  可选的视觉合成权重可用于平衡嘴唇、心情和姿势权重。
  ReferenceNet编码全局视觉纹理信息，用于实现划一且可控的脚色动画。
  人脸和音频编码器分别天生高保真的肖像身份特性和将音频编码为动作信息。
  条理化音频驱动的视觉合成模块创建了音频和视觉组件（嘴唇、心情、姿势）之间的关系，并在扩散过程中使用UNet降噪器。

音频驱动的条理视觉合成的可视化及原始全方法与我们提出的条理音频-视觉交错留意力之间的比力分析。
练习与推理

练习

练习过程包罗两个差别的阶段：
(1) 在第一阶段的练习中，使用参考图像和目的视频帧对天生单个视频帧。
  VAE编码器息争码器的参数以及面部图像编码器被固定，同时答应优化ReferenceNet和去噪UNet的空间交错留意力模块的权重，以进步单帧天生本事。提取包罗14帧的视频片断作为输入数据，从面部视频片断中随机选择一帧作为参考帧，从同一个视频中选择另一帧作为目的图像。
  (2) 在第二阶段的练习中，使用参考图像、输入音频和目的视频数据举行视频序列练习。
  ReferenceNet和去噪UNet的空间模块保持静态，专注于加强视频序列天生本事。这个阶段重要偏重于练习条理化的音频-视觉交错留意力，创建音频作为运动引导和嘴唇、心情和姿势的视觉信息之间的关系。
  别的，引入运动模块来改善模子的时间连贯性平静滑性，该模块使用来自AnimateDiff 的预设权重举行初始化。在这个阶段，从视频剪辑中随机选择一个帧作为参考图像。

本帖子中包含更多资源