程序聚合软件案例华为昇腾NPU上部署大模型推理，实现pd分离

华为昇腾NPU上部署大模型推理，实现pd分离

2026-02-08 21:51:22

行业：人工智能

载体：操作系统

技术：NumPy、Pandas、Transformers

业务和功能介绍

vLLM-Ascend ：昇腾 NPU 上的大模型推理部署
前言：近两年大语言模型的推理需求爆发式增长，推理引擎成为了AI工程落地的核心基础设施。举个例子，爆发式增长的推理需求相当于一群车过马路，传统的推理引擎就是“单车道马路”，容易拥堵。而vLLM是业界领先的开源推理框架，相当于“十车道高速公路”，让AI的响应更快更迅速、成本也更低。

为了支持昇腾AI芯片生态，vLLM社区在去年年底推出了vLLM-Ascend硬件插件‌。就像是为昇腾芯片量身定制的“适配器”，巴适得很。截至 2025 年 12 月，vLLM-Ascend 已支持 Llama、Qwen、ChatGLM、Mixtral 等主流架构，并具备 Expert Parallelism（EP）、多模态、Embedding 模型等高级能力

项目实现

1、硬件
华为 Atlas 系列 NPU设备，例如：
Atlas 800I A2/A3 (推理)
Atlas A2/A3 (训练)
2、软件
操作系统：Linux（推荐 EulerOS、CentOS 或 Ubuntu）
Python 版本：>=3.9, <3.12（本文使用 Python 3.11）
CANN 版本：>=8.2.rc1（请根据你的 NPU 驱动版本安装对应 CANN）
PyTorch & torch-npu：需使用 Ascend 官方提供的版本
3、安装 vLLM 与 vLLM-Ascend
3.1、设置 pip 源（加速）
3.2 克隆并安装 vLLM
3.3 克隆并安装 vLLM-Ascend
3.4 验证插件是否加载成功
4、例如下载 Qwen2.5-7B-Instruct 模型

示例图片视频

java开发-刘工

30天前活跃

方向：后端-Java、

交付率：100.00%

查看主页

相似推荐

售后服务管理系统

本套售后管理系统，是深度贴合制造业一线业务场景的轻量化协同工具。它无需推翻企业现有管理体系，不依赖高额定制开发，无缝衔接金蝶ERP，精准填补现场业务与后端管理系统的衔接空白，用最小成本实现售后管理数字化升级。系统适用对象覆盖全生态售后相关角色，包括企业售后部全体人员、销售人员、授权经销商及合作电工，不同角色配备专属操作入口与功能权限，操作简单易上手，无需复杂培训即可快速落地使用。在登录方式上，系统采用双端适配模式：内部售后、销售人员通过企业微信工作台登录，实现PC+移动端协同办公；外部经销商、合作电工通过微信小程序登录，扫码即用、无需安装额外软件，真正做到随时随地办业务，一键操作提效率。

内部AI问答平台

系统集成 AI 知识助手、多模态助手、企业知识库三大核心能力，支持仪表板快速生成、拖拽式大屏搭建、智能报告生成与剧本化编辑，并提供 AI 机器人聊天及自定义指标配置，打造覆盖智能交互、数据分析与可视化应用的全链路企业级平台。

证券H5积分商城系统

作为前端核心开发，我的任务是主导积分商城的前端架构设计，并独立负责商品展示、积分兑换、订单管理等核心模块的开发。关键目标是打造一个稳定、流畅且用户体验良好的H5应用，并确保与券商APP原生环境无缝集成。

批量数据处理与自动化运维脚本开发

本项目为批量数据处理与自动化运维脚本工具，旨在解决企业日常工作中大量重复的数据处理、运维操作问题，通过 Python 自动化脚本，实现数据采集、批量导出、定时任务、日志监控等功能。工具核心功能包括：1. 多源数据采集，支持 Excel/CSV/ 数据库等多格式数据自动提取；2. 批量数据处理，支持数据清洗、格式转换、报表生成；3. 自动化运维，支持定时任务、服务器监控、日志分析；4. 可视化配置，用户可通过简单配置实现自定义自动化流程，无需代码。工具可广泛应用于财务、行政、运维等多个岗位，大幅提升工作效率，减少人工错误。

AI 多 Agent 自动化办公系统开发

本项目为 AI 多 Agent 自动化办公系统，旨在解决企业日常办公中重复、繁琐的流程化工作，通过大模型驱动的多智能体协同，实现文档处理、智能问答、流程自动化等核心功能。系统核心模块包括：1. 智能文档解析 Agent，支持 PDF/Word/Excel 等多格式文件自动提取关键信息、生成摘要；2. 流程自动化 Agent，可自定义工作流，自动执行数据录入、报表生成等任务；3. 智能问答 Agent，基于企业私有知识库，提供精准的业务咨询服务。用户可通过可视化界面快速配置 Agent，无需代码即可搭建专属自动化办公系统，大幅提升办公效率，降低人力成本。