vLLM-Ascend :昇腾 NPU 上的大模型推理部署
前言:近两年大语言模型的推理需求爆发式增长,推理引擎成为了AI工程落地的核心基础设施。举个例子,爆发式增长的推理需求相当于一群车过马路,传统的推理引擎就是“单车道马路”,容易拥堵。而vLLM是业界领先的开源推理框架,相当于“十车道高速公路”,让AI的响应更快更迅速、成本也更低。
为了支持昇腾AI芯片生态,vLLM社区在去年年底推出了vLLM-Ascend硬件插件。就像是为昇腾芯片量身定制的“适配器”,巴适得很。截至 2025 年 12 月,vLLM-Ascend 已支持 Llama、Qwen、ChatGLM、Mixtral 等主流架构,并具备 Expert Parallelism(EP)、多模态、Embedding 模型等高级能力
1、硬件
华为 Atlas 系列 NPU设备,例如:
Atlas 800I A2/A3 (推理)
Atlas A2/A3 (训练)
2、软件
操作系统:Linux(推荐 EulerOS、CentOS 或 Ubuntu)
Python 版本:>=3.9, <3.12(本文使用 Python 3.11)
CANN 版本:>=8.2.rc1(请根据你的 NPU 驱动版本安装对应 CANN)
PyTorch & torch-npu:需使用 Ascend 官方提供的版本
3、安装 vLLM 与 vLLM-Ascend
3.1、设置 pip 源(加速)
3.2 克隆并安装 vLLM
3.3 克隆并安装 vLLM-Ascend
3.4 验证插件是否加载成功
4、例如下载 Qwen2.5-7B-Instruct 模型