### 数字人模型训练
- **功能描述**:通过上传训练视频和音频,训练个性化的数字人模型
- **主要特性**:
- 支持自定义模型名称和参数配置
- 多种图像尺寸选择(256×256、512×512、1024×1024)
- 可配置批次大小、学习率、训练轮数等参数
- 实时训练进度监控和损失曲线展示
- 支持训练任务的暂停、继续和停止操作
### 数字人推理
- **功能描述**:使用已训练的数字人模型,根据音频生成数字人视频
- **主要特性**:
- 模型列表管理和选择
- 支持音频驱动和视频驱动两种模式
- 可配置输出质量和格式
- 实时推理进度显示
### 核心技术栈
- **后端框架**:Flask(Python Web框架)
- **深度学习框架**:PyTorch
- **计算机视觉**:OpenCV、ONNX Runtime
- **音频处理**:Wenet语音识别模型
- **前端技术**:HTML5、Bootstrap、JavaScript
### 核心模块
- **人脸检测与对齐**:基于SCRFD的人脸检测和关键点定位
- **人脸属性检测**:人脸表情、姿态等属性分析
- **音频特征提取**:基于Wenet的音频特征提取
- **视频合成**:基于3DMM和GAN的视频生成
- **模型训练**:支持多种GAN架构(UNet、DINet等)