山观 HIKE Insight | 算力突围：大模型推理芯片核心指标与产业格局研判（总览篇）

山行资本·2026年04月30日 16:43

AI时代真正交付给用户的，已经不是“一颗多少算力的芯片”，而是一种完整的智能体验。

自2022年底ChatGPT面世以来，基于Transformer的AI大模型架构率先成为行业内的共识。随着2024年DeepSeek为首大模型优化成本下降、多模态大模型的快速发展，再到2025年下半年开始，AI Coding、AI Generate video、AI Agent都广泛进入工业生产环节，AI推理彻底爆发且成为行业共识，我们看几个显性的例子：

AI工业化时代，所有玩家都在疯狂布局，以巨头为首，头部几家互联网巨头对于高性能计算芯片的年采购量加总已突破百万片，且从数据中心分配上来看，70%-80%实际上是应用于推理场景，推理算力的整体市场空间超过3000亿元。

由此，AI时代进入规模化放量和产业链精细优化阶段。此前以英伟达为首的高性能计算芯片曾一卡难求，在推理阶段依然延续芯片的供不应求，但是如果拆开来看，“旧时代的思维方式：比 TOPS，比 TFLOPS，比工艺节点”已经不够表征AI的需求了。AI时代真正交付给用户的，已经不是“一颗芯片”，而是一种完整的智能体验。

山行做大模型推理芯片研究时，做出一系列行研报告，此次先发布总览篇，我们先把影响大模型推理能力的多个维度，以及现市场上芯片的理论计算能力（基于官网披露的数字计算的理论值结果）作为基准，在此做个讨论和整理。

一、面向推理场景的计算芯片应该如何衡量价值？

上图比较完整的体现了影响AI推理芯片的核心feature，或者从用户视角看，用户在进行采买决策时，核心参考的指标项。而其中，我们最在意的是直接影响芯片performance的几个指标：算力、显存容量、带宽，也分别是云端芯片和边/终端芯片最核心的指标：

算力：算力参数——衡量参数TOPS（Tera Operations Per Second）和TFLOPS（Tera Floating-point Operations Per Second）。量级单位（Giga（G）/ Tera（T）/ Peta（P）/ Exa（E））、是否为浮点运算（FL），每秒运算次数（OPS）。

计算精度——训练模型倾向于使用更高的精度以确保准确性，推理模型更多采用较低的精度来提高效率和降低成本，Eg DeepSeek为例，在训练和推理过程中均采用了FP8精度（降低精度，但并未显著影响效果，从而节约了成本，再过一年可能还能到FP4）。

显存容量与带宽：大模型运算（推理and训练）是访存密集型工作（频繁地读取模型权重和中间激活值），对显存大小和显存带宽都有一定的要求：

显存容量——多卡集群显存大小决定可以推理哪些模型。而在终端场景，显存大小对于模型选型尤为关键，也直接决定端侧的AI能力。

显存带宽——大模型推理过程中，显存带宽往往比算力更为关键。