1、项目目标
基于AI生成技术、语音合成技术和人脸驱动技术,构建一套可量产、可私有化部署的数字人短视频生成软件,降低制作成本。
2、软件功能
该短视频数字人生成软件面向短视频创作与内容生产场景,支持用户上传照片生成数字人形象,并提供多风格语音库供选择。用户只需输入一段文本,系统即可通过语音合成和面部驱动技术自动生成口型同步、表情自然的数字人短视频。软件操作简单、无需拍摄和配音经验,可快速、低成本地批量创作短视频内容。
   本项目以桌面工具的形式实现数字人短视频生成功能,整体采用本地界面+AI模型调用的结构设计。软件内部集成了TTS文本转语音技术,用户输入文字后即可自动生成对应的语音音频。通过Hallo视频生成模型,将语音音频与数字人照片结合生成短视频。随后通过Wave2Lip口型驱动模型,将生成的语音与用户提供的人脸照片进行匹配,自动生成口型同步的视频片段,最终输出完整的短视频文件。