Contents
Inference Engineering
中文版电子书 · Philip Kiely。从第 0 章开始顺序阅读,或直接跳转到你关心的章节。- 00 推理
概述推理工程的三层栈:运行时、基础设施与工具层,并说明全书各章的展开方式。
- 01 先决条件
从产品约束出发界定推理问题,讨论用例、延迟预算、成本模型、模型选择与评估。
- 02 模型
梳理 LLM 与图像生成模型的核心架构,重点解释 Transformer、注意力、MoE 与扩散推理机制。
- 03 硬件
介绍支撑推理的 GPU 硬件基础,包括算力、带宽、缓存、互联与主流加速器形态。
- 04 软件
从 CUDA 到 PyTorch、推理引擎与 NVIDIA Dynamo,建立推理软件栈的分层心智模型。
- 05 技术
系统整理量化、推测、缓存、并行与解耦五类核心优化技术,以及各自的适用条件和权衡。
- 06 模态
将推理工程扩展到视觉、语音与生成媒体,比较不同模态在延迟、吞吐量和质量上的差异。
- 07 生产部署
聚焦生产部署,讨论容器化、自动扩缩容、多云容量、成本核算与端到端延迟治理。
- 08 推荐阅读
本章按主题整理了架构、工具、开源模型、GPU 基础设施、推理优化与评测等延伸资料,可作为继续深入推理工程的学习索引。