vLLM 简介

vLLM 是一个快速、易用的大语言模型（LLM）推理和服务库，由加州大学伯克利分校 Sky Computing Lab 开发，现已成为社区驱动的开源项目。vLLM 通过创新的内存管理技术和高效的批处理机制，显著提升了大模型推理的吞吐量和效率。

什么是 vLLM

vLLM（Virtual Large Language Model）是一个专为大规模语言模型推理优化的开源框架。它解决了传统推理框架在显存管理和请求处理上的痛点，让开发者能够以更低的成本部署高性能的大模型服务。

核心优势

vLLM 的主要优势体现在以下几个方面：

极致的性能表现

vLLM 采用了一系列创新技术来提升推理性能。其中最关键的是 PagedAttention 算法，它借鉴操作系统虚拟内存的分页机制，将注意力机制的键值缓存（KV Cache）分割成固定大小的块进行动态管理。这种方式避免了传统方法中的显存碎片化和浪费，使得 GPU 显存利用率大幅提升。

灵活的部署方式

vLLM 支持多种部署场景，从单机单卡到多机多卡的分布式部署都能轻松应对。它提供了与 OpenAI API 兼容的 HTTP 服务接口，让开发者可以快速将现有应用迁移到自托管的大模型上。

丰富的模型支持

vLLM 无缝集成 Hugging Face 生态，支持绝大多数主流开源大语言模型，包括 Llama、Qwen、ChatGLM、Baichuan、DeepSeek、Mistral 等系列模型。同时，它也支持多模态模型（视觉语言模型、音频模型）和专家混合（MoE）模型。

Transformers 后端

除了原生支持的模型，vLLM 还提供了 Transformers 建模后端，可以直接运行 Hugging Face Transformers 支持的任何模型。这意味着即使模型没有被 vLLM 原生支持，也可以通过 Transformers 后端运行，性能通常在原生实现的 5% 以内。这大大扩展了 vLLM 的模型覆盖范围，让新模型可以快速投入使用。

自定义模型支持

vLLM 支持通过 Transformers 建模后端运行自定义模型。只需确保模型目录结构正确，并在配置中设置 trust_remote_code=True，就可以使用 Hugging Face Model Hub 或本地目录中的自定义模型。这使得开发者能够在 vLLM 官方支持之前就使用新发布的模型。

硬件兼容性

vLLM 不仅支持 NVIDIA GPU，还兼容 AMD GPU、Intel GPU、TPU 等多种硬件平台，为不同预算和场景的用户提供了灵活的选择。

核心特性详解

PagedAttention：显存管理的革命

PagedAttention 是 vLLM 最核心的创新。在传统的 Transformer 推理中，每个序列的 KV Cache 需要占用连续的显存空间。当处理变长序列时，这会导致严重的显存浪费——短序列占用的空间无法被其他请求利用。

PagedAttention 的解决思路是：

分页存储：将 KV Cache 分割成固定大小的块（Block），类似操作系统的内存页
动态分配：根据序列长度动态分配所需块数，无需预分配最大长度
共享机制：支持多个序列共享相同的 KV Cache 块，特别适用于束搜索（Beam Search）等场景

这种设计使得 vLLM 的显存利用率比传统框架提升数倍，从而支持更高的并发吞吐量。

连续批处理（Continuous Batching）

传统批处理采用静态批次，需要等待批次内所有请求完成后才能处理下一批。vLLM 实现了连续批处理机制：

新请求可以在任何时候加入正在运行的批次
已完成的请求可以立即退出，释放资源
通过动态调度最大化 GPU 利用率

这就像餐厅的动态排号系统——不需要等一桌客人全部吃完才接待下一桌，而是有人离开就立即安排新客人入座。

推测解码（Speculative Decoding）

vLLM 支持推测解码技术，通过一个小型草稿模型快速生成候选 token，再由主模型验证。这种方式可以显著降低延迟，特别是在生成重复性较高的文本时效果明显。

CUDA Graph 加速

vLLM 使用 CUDA Graph 技术来减少 CPU 与 GPU 之间的通信开销。通过将一系列 CUDA 操作预先录制并固化，可以大幅减少内核启动的开销，提升推理吞吐量。这对于延迟敏感的应用尤其重要。

Chunked Prefill

Chunked Prefill 将长序列的预填充阶段分块处理，减少延迟峰值。当处理长 prompt 时，传统的预填充需要一次性计算所有 token，导致其他请求被阻塞。Chunked Prefill 允许将长 prompt 分成多个小块处理，每个块之间可以处理其他请求的解码操作，从而平滑延迟并提供更好的响应体验。

自动前缀缓存（Automatic Prefix Caching）

在多轮对话或共享系统提示的场景中，自动前缀缓存可以复用之前计算的 KV Cache，避免重复计算。vLLM 会自动检测输入中的重复前缀，当新请求的开头部分与已缓存的序列匹配时，直接复用相应的 KV Cache 块，大幅提升效率。

量化支持

为了进一步降低显存占用和提升推理速度，vLLM 支持多种量化方案：

量化类型	描述	适用场景
GPTQ	4-bit 权重量化	显存受限场景
AWQ	激活感知权重量化	精度敏感场景
FP8	8-bit 浮点量化	NVIDIA Hopper 架构
INT8	8-bit 整数量化	通用加速场景

适用场景

vLLM 特别适合以下应用场景：

高并发 API 服务

当你的应用需要同时服务大量用户请求时，vLLM 的高吞吐特性可以显著降低硬件成本。例如在线客服、内容生成平台等。

长文本处理

PagedAttention 的高效显存管理使得 vLLM 在处理长文本时表现优异，适合文档分析、代码生成等场景。

实时交互应用

通过连续批处理和流式输出，vLLM 可以在高并发下保持较低的响应延迟，适合聊天机器人、AI 助手等实时应用。

资源受限环境

量化功能和高效的显存管理让 vLLM 能够在消费级 GPU 上运行大模型，降低了开发和测试的门槛。

与其他框架的对比

特性	vLLM	SGLang	Hugging Face TGI	TensorRT-LLM	llama.cpp
易用性	⭐⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐	⭐⭐⭐
吞吐量	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐
延迟	⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐
模型支持	⭐⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐	⭐⭐⭐⭐
硬件兼容	⭐⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐	⭐⭐⭐⭐⭐
结构化输出	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐	⭐⭐	⭐⭐

vLLM 在易用性、模型支持广度和结构化输出方面具有明显优势。与 SGLang 相比，vLLM 的生态更成熟，支持更多硬件平台；与 TensorRT-LLM 相比，vLLM 更易于使用和部署；与 llama.cpp 相比，vLLM 在 GPU 推理的吞吐量上有显著优势。

学习路径

本教程将按照以下路径帮助你掌握 vLLM：

环境配置 - 安装 vLLM 并配置开发环境
快速开始 - 运行你的第一个 vLLM 程序
核心概念 - 深入理解 PagedAttention 和批处理机制
API 服务 - 部署 OpenAI 兼容的 API 服务
量化详解 - AWQ、GPTQ、FP8 等量化技术
结构化输出 - JSON Schema、正则表达式等约束输出
性能优化 - 并行、LoRA 和调优技巧
分布式部署 - 多卡和多机部署方案
多模态模型 - 视觉语言模型和嵌入模型
故障排查 - 常见问题诊断与解决方案
速查表 - 常用命令和配置速查

参考资源

小结

vLLM 通过 PagedAttention 等创新技术，解决了大模型推理中的显存管理和批处理难题。它不仅性能优异，而且使用简单，是部署开源大模型的理想选择。接下来，让我们从环境配置开始，一步步掌握 vLLM 的使用。

什么是 vLLM​

核心优势​

核心特性详解​

PagedAttention：显存管理的革命​

连续批处理（Continuous Batching）​

推测解码（Speculative Decoding）​

CUDA Graph 加速​

Chunked Prefill​

自动前缀缓存（Automatic Prefix Caching）​

量化支持​

适用场景​

与其他框架的对比​

学习路径​

参考资源​

小结​