阿里巴巴智能计算研究所发布生成式AI模型EMO

2月28日,阿里巴巴智能计算研究所发布了一款全新的生成式AI模型EMO(Emote Portrait Alive)。EMO仅需一张人物肖像照片和音频,就可以让照片中的人物按照音频内容“张嘴”唱歌、说话,且口型基本一致,面部表情和头部姿态非常自然。

EMO不仅能够生成唱歌和说话的视频,还能在保持角色身份稳定性的同时,根据输入音频的长度生成不同时长的视频。

EMO的工作过程分为两个主要阶段:首先,利用参考网络(ReferenceNet)从参考图像和动作帧中提取特征;然后,利用预训练的音频编码器处理声音并嵌入,再结合多帧噪声和面部区域掩码来生成视频。该框架还融合了两种注意机制和时间模块,以确保视频中角色身份的一致性和动作的自然流畅。

https://s2-video.huxiucdn.com/mda-qbu5ztqmnnjx4q4t/mda-qbu5ztqmnnjx4q4t.mp4

这个过程相当于,AI先看一下照片,然后打开声音,再随着声音一张一张地画出视频中每一帧变化的图像。

EMO的技术报告中称:实验结果表明,EMO不仅能够产生令人信服的说话视频,还能生成各种风格的歌唱视频,显著优于现有的先进方法,如DreamTalk、Wav2Lip和SadTalker,无论是在表现力还是真实感方面。

目前,研究团队认为该模型的潜在应用方向将集中在:提高数字媒体和虚拟内容生成技术水平,特别是在需要高度真实感和表现力的场景中。

然而在另一些人看来,EMO模型却很可能成为别有用心的人手中的犯罪工具。

阿里发EMO模型,视频不可信了-虎嗅网 (huxiu.com)

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注