Codart Studio

Audio2Face and UE client sample


🛠️超写实AI虚拟助手智慧屏Demo示例(No ASR)

超写实AI虚拟助手智慧屏是一款融合了尖端人工智能技术的创新产品,它将逼真的虚拟形象、自然流畅的语音交互以及多功能的智慧屏功能集于一身。这款产品通过先进的计算机图形技术和深度学习算法,实现了虚拟人物的超写实视觉效果,让用户感受到仿佛与真人对话的沉浸式体验。其AI语音交互系统能够理解并回应用户的自然语言指令,提供信息查询、娱乐内容播放、智能家居控制等多种服务。此外,智慧屏还具备丰富的应用场景,无论是家庭娱乐、教育学习,还是商业展示、健康监测,都能为用户提供便捷、智能的解决方案。

超写实AI虚拟助手智慧屏Demo示例(No ASR)

**超写实AI虚拟助手智慧屏Demo示例(No ASR)**主要包含这几个关键后台模块:ASR(语音识别)、LLM(大预言模型)、TTS(文本合成语音)以及Audio2Face(语音转口型)。

  • LLM使用的是ChatLM-Chinese-0.2B,一个中文对话小模型,模型参数只有0.2B,推理仅需要512M显存。

  • TTS使用的是网易有道的EmotiVoice,是一个强大的开源TTS引擎,支持中英文双语,包含2000多种不同的音色,以及特色的情感合成功能,支持合成包含快乐、兴奋、悲伤、愤怒等广泛情感的语音。

  • Audio2Face使用的是FACEGOOD-Audio2Face,当然,需要对输出的BlendShape数据进行算法处理。

  • 由于ChatLM-Chinese-0.2BEmotiVoice自带HTTP API,所以Audio2Face也是通过HTTP API与UE Client Demo通信,但BlendShape数据是通过UE LiveLink传输,可参考LLV

📖NVIDIA-2017: Audio-Driven Facial Animation…

2017年的SigGraph,一篇由NVIDIA发布的音频驱动嘴型论文提供了不错的思路。

Audio-Driven Facial Animation by Joint End-to-End Learning of Pose and Emotion

论文介绍了如何使用三个神经网络,从语音推断面部动画。以大约半秒的音频作为输入,并输出对应于音频窗口中心的固定拓扑网格的三维顶点位置。还接受了一个描述情绪状态的次要输入。情绪状态是从训练数据中学习出来的,没有任何形式的预标记。

第一个神经网络是共振峰分析网络,以产生随时间变化的语音特征序列,该序列随后将驱动发音。该网络首先使用固定功能的自相关分析提取原始共振峰信息,然后通过5个卷积层对其进行改进。通过训练,卷积层学习提取与面部动画相关的短时特征,例如语调、重音和特定音素。他们的抽象、随时间变化的表示是第5个卷积层的输出。

第二个神经网络是发音网络,由5个卷积层组成。这些卷积层会分析特征的时间演变,并最终决定一个描述音频窗口中心面部姿势的单个抽象特征向量。作为辅助输入,发音网络接受(已学习的)情感状态的描述,以消除不同面部表情和说话风格之间的歧义。发音网络输出一组256+E个抽象特征,这些特征共同表示所需的面部姿势。

第三个神经网络是输出网络,实现为一对全连接层,对数据进行简单的线性变换。第一层将输入特征集映射到线性基的权重上,第二层计算最终顶点的位置作为相应基向量的加权和。

Not speak, but output something

在基于该论文算法实现时,需要注意的是:在输入一段静默音频,也会得到意想不到的输出。

FaceGood公司开源了一个基于该论文实现的Github项目——FACEGOOD-Audio2Face,从预训练到示例程序。

推荐阅读


关注【码上艺术】公众号,第一时间获取更多前沿技术干货!

打赏作者