现在市面上常的数字人是静态渲染成视频的。
项目立项的时候就希望做成可以直播的数字人,响应速度即快,同时可以通过大语言模型实时回答问题。
1、前端语音或者文字输入问题
2、后端接受到语音,通过asr转化成文本,输入给大模型,大模型推理出结果后,发送给TTS模块,tts模块将文本转化成wav语音,口型模块加载底图(视频)和wav波形,生成序列帧,后端把序列帧发送给客户端完成语音+视频的结果反馈。
全部我一个人做的。
TTS文本转语音的性能优化,口型模块性能优化,这是两个最核心的需求点,如果速度不快,就会卡住不流畅。