1.以 Stable Diffusion XL 模型为重点,保证一定延时的条件下,最大化地提高吞吐。
以 Pytorch Fp16 格式模型为基准,可在无损条件下实现单模型推理 1.41 倍加速,单 GPU 整体吞吐提升 1.52 倍,考虑 Int8 量化的有损情况下可达到单模型 2.1 倍加速。
2. 搭建文生图模型推理服务框架,支持 Lora、Controlnet 等主流功能以及高并发推理场景。
1. 研究各种推理优化方法,包括 TensorRT、OneDiff 等编译优化方法,以及 Disable CFG、DeepCache、
模型量化、模型蒸馏等有损方法,并探讨每一种优化方式的适用场景;
2. 结合模型结构和 Profiler 结果,基于 TensorRT 进行深度优化,包括算子融合(Plugin)、Multi-stream、
Cuda Graph 等通用优化,以及 Layout 优化、Scheduler 优化、去除冗余计算等模型针对性优化;
3. 对比 Batch 和多实例并行两种方法的优缺点,结合 MPS 并行提高 GPU 利用率,从而提高整体吞吐。
4. 使用 Triton Inference Server 进行推理服务部署,从而支持多模型管理、动态批处理、多实例并行等方
式,并对接上游请求调度端,提高整体吞吐;
5. 基于 Diffusers 库丰富文生图生态,支持 Lora、Controlnet 等主流插件功能;
6. 设计模型多级缓存模块,以支持大规模的 Lora/Controlnet 模型的快速加载及切换。