Contents

Inference Engineering

中文版电子书 · Philip Kiely。从第 0 章开始顺序阅读,或直接跳转到你关心的章节。
  1. 00
    推理

    概述推理工程的三层栈:运行时、基础设施与工具层,并说明全书各章的展开方式。

  2. 01
    先决条件

    从产品约束出发界定推理问题,讨论用例、延迟预算、成本模型、模型选择与评估。

  3. 02
    模型

    梳理 LLM 与图像生成模型的核心架构,重点解释 Transformer、注意力、MoE 与扩散推理机制。

  4. 03
    硬件

    介绍支撑推理的 GPU 硬件基础,包括算力、带宽、缓存、互联与主流加速器形态。

  5. 04
    软件

    从 CUDA 到 PyTorch、推理引擎与 NVIDIA Dynamo,建立推理软件栈的分层心智模型。

  6. 05
    技术

    系统整理量化、推测、缓存、并行与解耦五类核心优化技术,以及各自的适用条件和权衡。

  7. 06
    模态

    将推理工程扩展到视觉、语音与生成媒体,比较不同模态在延迟、吞吐量和质量上的差异。

  8. 07
    生产部署

    聚焦生产部署,讨论容器化、自动扩缩容、多云容量、成本核算与端到端延迟治理。

  9. 08
    推荐阅读

    本章按主题整理了架构、工具、开源模型、GPU 基础设施、推理优化与评测等延伸资料,可作为继续深入推理工程的学习索引。