阿里巴巴作为国内最大的电商平台之一,也不甘落后于潮流,为了满足用户的需求,在2024年2月份推出了音视频扩散模型,给广大用户带来了全新的体验。
阿里emo入口:【点击进入】
介绍
1、阿里emo是一个由阿里巴巴智能计算研究所开发的技术。
2、它能够根据一张静态的人物照片和音频输入(如说话或唱歌声)生成具有丰富表情和头部姿势的动态视频。
4、这项技术支持多种语言,能够为不同风格的肖像注入生命,包括历史人物、绘画作品以及3D模型等。
方法
1、阿里emo的框架主要由两个阶段组成。
2、在称为帧编码的初始阶段,部署 ReferenceNet 以从参考图像和运动帧中提取特征。
3、随后,在扩散过程阶段,预训练的音频编码器处理音频嵌入。
4、面部区域蒙版与多帧噪点集成在一起,以控制面部图像的生成。
5、随后,采用骨干网络来促进降噪操作。
6、在骨干网络中,应用了两种形式的注意力机制:参考注意力和音频注意力。
7、这些机制分别对于保持角色的身份和调节角色的动作至关重要。
8、此外,时间模块用于操纵时间维度,并调整运动速度。