我们重点提出了四项有前景的研究方向,以提升数据中心大语言模型(LLM)推理的性能:高带宽闪存(High Bandwidth Flash),可提供接近HBM带宽、但容量达其10倍的存储能力;近存计算(Processing-Near-Memory)与3D内存-逻辑堆叠(3D memory-logic stacking),以实现高内存带宽;以及低延迟互连(low-latency interconnect),用于加速通信。此外,我们还回顾了这些技术在移动设备上的适用性。

介绍

当一位作者于1976年开启其职业生涯时,计算机体系结构会议中约40%的论文来自工业界;至2025年国际计算机体系结构研讨会(ISCA),该比例已降至4%以下,反映出研究与实践之间近乎脱节。为重建二者的历史纽带,我们提出若干研究方向——若得以推进,将有助于应对AI产业当前面临的一些最严峻的硬件挑战。

大语言模型(LLM)推理正陷入一场危机。硬件的快速演进推动了AI的进步,预计未来5–8年内推理芯片的年销售额将增长4至6倍。尽管训练展现了显著的AI突破,但推理成本才最终决定其经济可行性;随着模型使用量激增,企业发现部署最先进模型的成本极为高昂。

新兴趋势进一步加剧了推理难度:

当前大模型推理硬件及其低效性

我们首先回顾大语言模型(LLM)推理的基本原理及其在主流AI架构中的主要瓶颈,重点聚焦于数据中心场景下的LLM。移动设备上的LLM受制于不同约束,因此适用方案亦异(例如,HBM不可行)。
image.png
以Transformer为核心的LLM包含两个特征迥异的推理阶段:Prefill(预填充) 与 Decode(解码) (见图1)。Prefill类似于训练过程,即并行处理整个输入序列的所有token,因而本质上是计算密集型;而Decode则本质上是顺序执行的——每一步仅生成一个输出token(“自回归”方式),故为内存受限型。键值缓存(KV Cache)连接这两个阶段,其大小正比于输入与输出序列总长度。尽管图1中二者并列呈现,Prefill与Decode实际关联较弱,常运行于不同服务器上。解耦式推理(Disaggregated inference)支持批处理等软件优化,可缓解Decode的内存瓶颈。

GPU与谷歌的张量处理单元(TPU)是数据中心中广泛用于训练与推理的加速器。历史上,推理专用版本通常由训练系统缩减而来(如芯片数量更少、单芯片规模更小或内存/性能更低)。迄今尚无专为LLM推理设计的GPU/TPU。由于Prefill与训练相似,而Decode显著不同,现有硬件在Decode阶段面临两大挑战:

Decode挑战 1:内存瓶颈
自回归式Decode使推理天然受限于内存带宽,而新兴软件趋势进一步加剧该问题;相比之下,硬件发展路径却背道而驰。
image.png
AI处理器遭遇“内存墙” :当前数据中心GPU/TPU依赖高带宽内存(HBM),将多个HBM堆栈连接至单一单片式专用集成电路(ASIC)加速器(参见图2与表1)。然而,内存带宽提升速度远落后于计算能力(浮点运算每秒次数,FLOPS)。例如,NVIDIA GPU的64位FLOPS从2012至2022年提升了80倍,而带宽仅增长17倍。该差距将持续扩大。
image.png
HBM成本持续攀升:以单个HBM堆栈为例,其单位容量成本(/GB)与带宽成本(/Gbps)在2023–2025年间均上涨了1.35倍——这一涨幅源于制造与封装难度随HBM堆栈及动态随机存取存储器(DRAM)密度提升而同步增加。相较之下,图3(b)显示标准双倍数据速率(DDR4)DRAM的等效成本呈下降趋势:2022–2025年间,容量成本降至0.54×,带宽成本降至0.45×。然而,受意外需求驱动,2026年所有内存与存储设备价格全面飙升;我们预计,HBM与DRAM长期存在分化的价格走势将持续。

DRAM密度增长正在放缓。对单颗DRAM芯片而言,规模效应亦日益乏力:2014年首发的8 Gbit DRAM芯片,其四倍容量提升耗时将超过10年(此前每3–6年即可实现四倍增长)。

仅依赖SRAM的方案不足以应对挑战。Cerebras与Groq曾尝试采用满版晶圆级芯片(full reticle chips),以片上SRAM替代DRAM与HBM,以规避相关瓶颈(Cerebras甚至采用了晶圆级集成技术)。尽管这些方案在公司创立初期看似可行,但随着大语言模型(LLMs)迅速压倒片上SRAM容量上限,二者最终均不得不转向外部DRAM。

解码挑战2:端到端延迟
面向用户的应用要求低延迟。与耗时数周的训练不同,推理需响应实时请求,通常需在数秒甚至更短时间内完成。低延迟对面向用户型推理至关重要(批处理或离线推理则无此要求)。根据应用场景,延迟可定义为全部输出token生成完成所需时间(time-to-completion),或首个用户可见token生成所需时间(time-to-first-token)——二者均面临严峻挑战:

片间互连延迟压倒带宽瓶颈 LLM出现前,数据中心推理通常运行于单芯片上,而训练需依赖超算;超算互连设计以带宽优先、容忍较高延迟。LLM推理彻底改变了这一格局:

四个研究机会重新思考LLM推理的硬件实现

image.png
性能/成本指标用于衡量AI系统的效率。现代指标——强调真实场景下的性能、总拥有成本(TCO)、平均功耗及二氧化碳当量排放(CO₂e)——为系统设计设定了新目标

image.png
① 高带宽闪存实现10倍容量提升
高带宽闪存(High Bandwidth Flash, HBF)通过类似HBM的方式堆叠闪存晶粒,将HBM的带宽优势与闪存的大容量特性相结合(见图4(a))。HBF可使单节点内存容量提升10倍,从而缩小系统规模,降低功耗、总拥有成本(TCO)、碳排放(CO₂e)及网络开销。表3对比了HBF与HBM、DDR及低功耗DDR(LPDDR)DRAM。替代方案的短板在于:DDR5带宽不足、HBM容量受限、而HBF则存在写入耐久性限制与高读取延迟问题。

HBF另一显著优势是可持续扩容能力:闪存容量仍保持约每三年翻倍,而如前所述,DRAM密度增长已明显放缓。
需应对两项广为人知的闪存限制:

高带宽闪存(HBF)为大语言模型推理带来的全新能力:

HBF催生的前沿研究问题:

② 近存计算(Processing-Near-Memory)实现高带宽
数十年前便已提出的存内计算(Processing-in-Memory, PIM),通过在存储芯片的内存 bank 上搭载小型低功耗处理器来获取高带宽。尽管PIM能提供惊人的带宽,但也面临两大关键挑战:软件分片与存算耦合。前者限制了可在 PIM 上高效运行的软件核数量,后者则会降低计算逻辑的功耗与面积效率。

与之相对,近存计算(Processing-Near-Memory, PNM) 是一种将内存与计算逻辑物理靠近部署、但仍采用独立芯片的技术。PNM的一种实现形式是 3D计算-逻辑堆叠技术(详见后面的③)。

遗憾的是,近期部分论文模糊了PIM与PNM的界限——无论计算逻辑是否直接嵌入内存芯片,均统一以“PIM”指代。本文采用清晰明确的划分标准:

不过,上述结论仅针对数据中心LLM;在移动设备中,二者的优劣对比并不明确:移动设备受能耗约束更强,且运行的LLM通常参数量更少、上下文长度更短、数据类型更小,再加上单用户场景决定了batch size极低。这些特性不仅简化了模型分片的需求,还降低了计算量与散热压力,使得PIM的短板不再突出,因此PIM在移动设备中具备可行的落地空间。

③ 3D存算堆叠技术实现高带宽
与2D硬件(内存I/O位于芯片边缘)不同,3D堆叠(见图4(b))通过硅通孔(Through Silicon Vias, TSVs)实现垂直互连,构建了宽而密集的内存接口,能以低功耗提供高带宽。

3D存算堆叠分为两种实现方案:

  1. 基于HBM基底芯片的存算方案(Compute-on-HBM-base-die)
    复用HBM现有设计,将计算逻辑嵌入HBM基底芯片。由于内存接口保持不变,带宽与传统HBM持平,但数据传输路径缩短,功耗可降低2-3倍。
  2. 定制化3D方案
    通过更宽、更密集的内存接口和更先进的封装技术,可实现比HBM复用方案更高的带宽与带宽功耗比。

尽管3D堆叠在带宽与功耗上表现更优,仍面临几大挑战:

  1. 散热问题(Thermal)
    3D结构的散热难度远高于2D芯片,原因是其有效散热表面积更小。一种解决方案是限制计算逻辑的FLOPS(每秒浮点运算次数):通过降低时钟频率和电压运行——而LLM推理阶段本身算术强度较低,恰好适配这种运行模式。
  2. 存算耦合问题(Memory-logic coupling)
    3D存算堆叠的内存接口可能需要统一的行业标准来规范。

3D堆叠技术带来的前沿研究方向:

④ 低延迟互连技术
前文介绍的①-③技术可同时优化延迟与吞吐量:更高的内存带宽能缩短每轮Decode迭代的延迟,而单加速芯片内存容量的提升可缩小系统规模,降低通信开销。面向数据中心的另一潜在低延迟优化方向,是重新思考网络延迟与带宽的权衡——推理场景对互连延迟更为敏感。具体方向包括:

相关工作

高带宽闪存(High Bandwidth Flash, HBF)
闪迪(SanDisk)率先提出了 HBF,即一种类HBM架构的闪存方案,旨在突破其带宽限制(SK Hynix 后续也加入了该研发)。微软研究人员提出了一种新型 AI 推理专用内存架构,聚焦于提升读取性能、增加存储密度,并兼顾写入性能与数据保留时间。虽然未明确提及,HBF 正是所提出的新型 AI 内存的一个具体实例。另一篇研究论文则提出将闪存集成到移动处理器中,用于设备端 LLM 推理;其中采用 LPDDR 接口以满足 Prefill 阶段带宽需求较低的特点,并通过 Processing-Near-Flash 技术应对 Decode 阶段对高带宽的需求。

近存计算(Processing-Near-Memory)
3D计算逻辑堆叠技术日益受到关注,被视为实现高于HBM带宽的一种手段,例如基于 HBM的片上计算方案,以及AMD提出的概念. 在非 3D 场景下,三星的 AXDIMM和 Marvell 的 Structra-A将处理器直接贴装于商用 DDR DRAM 上。前者在 DIMM 缓冲芯片中集成了计算逻辑,后者则利用 CXL 接口以提升可编程性与系统集成便捷性。

低延迟互连(Low-latency interconnect)
大量文献探讨了低跳数网络拓扑结构,如树形(trees)、蝶形(dragonfly)及高维 Torus 网络。商用片上/近存加速器示例包括:NVIDIA 的 NVLink 与 InfiniBand 交换机——支持交换内减少与多级聚合加速(SHARP,可扩展分层聚合与缩减协议)。类似能力近期亦出现在以太网交换机中。

软件创新(Software Innovations)
除本文聚焦的硬件创新外,还存在大量软硬件协同优化空间,用于改进 LLM 推理效率。例如,Transformer 解码器中的自回归特性是一大根本瓶颈;而新兴算法(如用于图像生成的 Diffusion 模型)若能规避该问题,则可极大简化 AI 推理硬件设计。

总结

大语言模型(LLM)推理的重要性与难度日益凸显——其迫切需要降低成本和延迟,因此成为极具吸引力的研究方向。自回归式解码(Autoregressive Decode)本身已对内存和互连延迟构成严峻挑战,而混合专家(MoE)、推理模型、多模态数据、检索增强生成(RAG)以及长输入/输出序列等技术趋势,进一步加剧了这一挑战。

当拥有符合现实的仿真工具时,计算机架构界曾在分支预测、缓存设计等问题上取得过重大突破。鉴于LLM推理的核心瓶颈在于内存与延迟,基于上限分析(Roofline)的性能仿真工具,或许能为多数场景提供一阶性能估算。此外,这类框架还需跟踪内存容量、探索各类对性能至关重要的分片技术,并采用聚焦数据中心容量、系统功耗及碳足迹的新型性能/成本指标,而非传统测量方式。我们期待学术研究者能把握这一机遇,加速人工智能研究进程。

当前AI硬件的核心理念——大画幅芯片、高浮点运算能力(FLOPS)、多HBM堆叠及带宽优化的互连架构——与LLM解码推理的需求并不匹配。虽然众多研究者仍在探索数据中心计算技术,但我们建议将研究重心转向内存与网络层面,沿以下四大方向推进技术改进:高带宽闪存(HBF)、近存计算(PNM)、3D堆叠以及低延迟互。此外,针对数据中心容量、系统功耗及碳足迹优化的新型性能/成本指标,相比传统测量方式也带来了新的研究机遇。HBF、PNM、存内计算(PIM)及3D堆叠技术的轻量化版本,同样有望在移动设备端LLM中发挥作用。

这类技术进步将开启协同攻关的序幕,助力实现全球亟需的关键、紧迫创新,为大众提供可负担的人工智能推理服务。

相关内容

Zhou, Z., et al., A survey on efficient inference for large language models, 2024, arXiv:2404.14294.

Shilov, A., SanDisk's new High Bandwidth Flash memory, 2025, Tom's Hardware.