书籍目录 | Inference Engineering

概述推理工程的三层栈：运行时、基础设施与工具层，并说明全书各章的展开方式。

从产品约束出发界定推理问题，讨论用例、延迟预算、成本模型、模型选择与评估。

梳理 LLM 与图像生成模型的核心架构，重点解释 Transformer、注意力、MoE 与扩散推理机制。

介绍支撑推理的 GPU 硬件基础，包括算力、带宽、缓存、互联与主流加速器形态。

从 CUDA 到 PyTorch、推理引擎与 NVIDIA Dynamo，建立推理软件栈的分层心智模型。

系统整理量化、推测、缓存、并行与解耦五类核心优化技术，以及各自的适用条件和权衡。

将推理工程扩展到视觉、语音与生成媒体，比较不同模态在延迟、吞吐量和质量上的差异。

聚焦生产部署，讨论容器化、自动扩缩容、多云容量、成本核算与端到端延迟治理。

本章按主题整理了架构、工具、开源模型、GPU 基础设施、推理优化与评测等延伸资料，可作为继续深入推理工程的学习索引。