山观 HIKE Insight | 算力突围:大模型推理芯片核心指标与产业格局研判(总览篇)
自2022年底ChatGPT面世以来,基于Transformer的AI大模型架构率先成为行业内的共识。随着2024年DeepSeek为首大模型优化成本下降、多模态大模型的快速发展,再到2025年下半年开始,AI Coding、AI Generate video、AI Agent都广泛进入工业生产环节,AI推理彻底爆发且成为行业共识,我们看几个显性的例子:
AI工业化时代,所有玩家都在疯狂布局,以巨头为首,头部几家互联网巨头对于高性能计算芯片的年采购量加总已突破百万片,且从数据中心分配上来看,70%-80%实际上是应用于推理场景,推理算力的整体市场空间超过3000亿元。
由此,AI时代进入规模化放量和产业链精细优化阶段。此前以英伟达为首的高性能计算芯片曾一卡难求,在推理阶段依然延续芯片的供不应求,但是如果拆开来看,“旧时代的思维方式:比 TOPS,比 TFLOPS,比工艺节点”已经不够表征AI的需求了。AI时代真正交付给用户的,已经不是“一颗芯片”,而是一种完整的智能体验。
山行做大模型推理芯片研究时,做出一系列行研报告,此次先发布总览篇,我们先把影响大模型推理能力的多个维度,以及现市场上芯片的理论计算能力(基于官网披露的数字计算的理论值结果)作为基准,在此做个讨论和整理。
一、面向推理场景的计算芯片应该如何衡量价值?
上图比较完整的体现了影响AI推理芯片的核心feature,或者从用户视角看,用户在进行采买决策时,核心参考的指标项。而其中,我们最在意的是直接影响芯片performance的几个指标:算力、显存容量、带宽,也分别是云端芯片和边/终端芯片最核心的指标:
算力:算力参数——衡量参数TOPS(Tera Operations Per Second)和TFLOPS(Tera Floating-point Operations Per Second)。量级单位(Giga(G)/ Tera(T)/ Peta(P)/ Exa(E))、是否为浮点运算(FL),每秒运算次数(OPS)。
计算精度——训练模型倾向于使用更高的精度以确保准确性,推理模型更多采用较低的精度来提高效率和降低成本,Eg DeepSeek为例,在训练和推理过程中均采用了FP8精度(降低精度,但并未显著影响效果,从而节约了成本,再过一年可能还能到FP4)。
显存容量与带宽:大模型运算(推理and训练)是访存密集型工作(频繁地读取模型权重和中间激活值),对显存大小和显存带宽都有一定的要求:
显存容量——多卡集群显存大小决定可以推理哪些模型。而在终端场景,显存大小对于模型选型尤为关键,也直接决定端侧的AI能力。
显存带宽——大模型推理过程中,显存带宽往往比算力更为关键。
二、Benchmark——当前主流芯片的理论能力水平横屏
定义清楚问题后,沿着这个框架,目前市面上的主流推理芯片,都处于怎样一个水平,我们分别对云端芯片和终端芯片的标量能力进行比较详细的整理:
1、横屏比较——服务器侧
我们团队对现在市面上主流的计算芯片的性能,做了场景化的模拟测试,测试case和结果如下:
推理场景(内容生成对话), 单张 GPU,Llama-13B,Batch size=16, FP16, ISL 512/BSL 3584, 理论性能估算,非NV软件优化60-90%损失。
TPS = (tokens to be generated) / (TTFT) + (TPOT) * (tokens to be generated)
量产的最好的产品是英伟达H系列和GB系列,INT8推理,H20~300TOPS算力,H100/800/200~4000TOPS算力。内存带宽在4TB/s这个量级。
国产最值得关注的是华为910B和910C,910B的算力在640TOPS,910C增长至1600TOPS;内存带宽从400GB增长到3TB量级。
2、横屏比较——移动端侧
4090和5090依然是在消费级场景里的机皇,上千TOPS算力,1-2TBs内存带宽,但是功耗大,只能作为主机设备, A18 Pro和M4 Max可以分别代表AI phone和AI PC上的顶级算力水平,但目前还没有做transformer based的算子适配。
三、怎么判断LLM的输出效率? measure当前主流的芯片的生产力
判断LLM的输出效率要看当前芯片的一些核心参数,包括TTFT、Latency、TPOT及TPS。
首先是,TTFT (Time to First Token) ——首Token时间:从业务角度来说是反映模型的初始响应速度,从算法推理角度来说,Prefill(预填充)阶段及Decode(解码)阶段可以通过下面信息图来说明:
Latency (Total Inference Time)——延时,包含 TTFT 和生成所有 tokens 的时间,越低越好
TPOT (Tokens Per Output Time) ——平均Token时间,越小越好
TPS(Tokens Per Second) ——平均每秒Token数,越大越好。其中,TPS是最直观和重要的指标。
主要芯片的LLM输出效率横屏
Llama开源比较久,且评测源比较多,这里我们以Llama为例输出了第一版横屏比较。推理场景(内容生成对话), 单张 GPU,Llama-13B,Batch size=16, FP16, ISL 512/BSL 3584, 理论性能估算,非NV软件优化60-90%损失
TPS = (tokens to be generated) / (TTFT) + (TPOT) * (tokens to be generated)
总结
AI已经完全进入工业化投产阶段,对于核心的生产力,也就是推理芯片,当前处于供不应求x产业链精细优化阶段。AI时代真正交付给用户的,已经不是“一颗多少算力的芯片”,而是一种完整的智能体验。
评价推理芯片的能力与用户场景需求的维度也因此更加多元,算力、显存大小与显存带宽,是云侧推理和终端设备推理都最为关注的性能指标。
从需求角度推演,输出质量(与launch的模型尺寸和性能)x输出效率(成本与速度,可以用TPS衡量)是用户最为在意的结果指标。
横屏来看,服务器端推理芯片,无论是GPGPU还是ASIC,目前英伟达系列芯片性能领先,国产玩家跟随,但当前TPS核心还是受限于带宽水平;终端推理芯片,目前在意的是能run的模型能力边界以及整体的推理限度,翻译成对于芯片的核心要求是容量和带宽。
以上,是山行关于 大模型推理芯片核心指标与产业格局研判的第一篇,如果您恰巧是从业者或者对此行业感兴趣,都欢迎留言与我们交流。
本文来自微信公众号“山行资本”,36氪经授权发布。















