为提升公司在垂直行业(教育)中大模型应用能力,本项目致力于构建一个可支持国产及开源大语言模型微调、评估与在线部署的一体化平台。通过参数高效微调技术(如LoRA)与分布式训练框架,降低大模型应用门槛并显著压缩部署成本。
基于LLama2-7B、InternLM-Chat-7B、Baichuan2-13B等模型进行对比评估。
使用QLoRA技术在低成本GPU环境下进行指令微调,构建领域问答能力。
编写用于自监督微调的预处理脚本,支持大规模数据增广与token级清洗。
使用vLLM + Huggingface Transformers进行高并发在线部署,性能相较HF原生模型提升2.3倍。
实现多租户Prompt路由机制,支持不同用户基于角色动态注入上下文。
利用FastAPI构建推理API,集成JWT权限验证与调用限流(Redis实现QPS控制)。
搭建训练监控看板(Prometheus + Grafana),实时追踪loss、lr、GPU利用率。
开发自动数据标注接口,接入OpenAI API辅助生成高质量Instruction数据。
优化与压缩:
尝试4bit量化部署,减少80%以上显存占用,便于消费级GPU部署。
结合PEFT与AdapterFusion技术,完成多领域模型参数模块融合。
模型选型与微调:
基于LLama2-7B、InternLM-Chat-7B、Baichuan2-13B等模型进行对比评估。
使用QLoRA技术在低成本GPU环境下进行指令微调,构建领域问答能力。
编写用于自监督微调的预处理脚本,支持大规模数据增广与token级清洗。
推理部署与服务化:
使用vLLM + Huggingface Transformers进行高并发在线部署,性能相较HF原生模型提升2.3倍。
实现多租户Prompt路由机制,支持不同用户基于角色动态注入上下文。
利用FastAPI构建推理API,集成JWT权限验证与调用限流(Redis实现QPS控制)。
工具链与可视化:
搭建训练监控看板(Prometheus + Grafana),实时追踪loss、lr、GPU利用率。
开发自动数据标注接口,接入OpenAI API辅助生成高质量Instruction数据。
优化与压缩:
尝试4bit量化部署,减少80%以上显存占用,便于消费级GPU部署。
结合PEFT与AdapterFusion技术,完成多领域模型参数模块融合。
项目成果:
成功部署3个大语言模型服务实例,稳定支持日均10万次API调用。
微调后模型在公司内部测评集上准确率提升18%,满意度评分提升至92%。
项目交付成果被用于两项对外商业合作,支撑多个行业客户私有化部署。