当推理成为稀缺资源,谁将捕获其价值?
AI推理正取代训练成为新瓶颈。英伟达财务重分类、Cerebras 20倍超额认购IPO、Anthropic算力告急,均印证推理需求爆发。本文深度解析算力堆栈六层结构,剖析唯一横跨三层的聚合平台Hyperbolic与隐私推理应用Venice的差异化价值,揭示在推理稀缺时代,价值将向算力路由与聚合层集中。
- 英伟达
- GPU
- 人工智能
- Cerebras
- 算力
作者:Frank Fu,IOSG Ventures
David Cahn在2023年提出的“窟窿”从未在训练侧被填补,却在推理侧被悄然填平,而市场直到最近几周才开始在定价中反映这一点。当英伟达(Nvidia)围绕“服务Token”重组财务披露,当Cerebras以20倍超额认购上市,关于瓶颈的争论已尘埃落定,真正的问题随之浮现:当推理成为稀缺资源,算力堆栈中的价值将向何处集中?
1. 跟随GPU:从“2000亿美元问题”到“6000亿美元问题”
2023年,红杉资本(Sequoia)的David Cahn抛出了笼罩整个AI基础设施的“2000亿美元问题”。每在GPU上投入1美元,数据中心还需再花约1美元为之供电,这意味着每年的GPU资本支出(CapEx)最终需要创造约2000亿美元的收入才能回本。即便对AI收入做出非常乐观的假设,他仍发现“投资”与“终端客户实际付费”之间存在超过1250亿美元的缺口。担忧很直接:GPU在实际需求到来之前就被过度建设了。
一年后,这一缺口不仅没有收窄,反而扩大了。在2024年的跟进文章中,Cahn随着超大规模云厂商资本支出的膨胀,将其重新定义为“6000亿美元问题”。看空逻辑汇聚成一个熟悉的形状:过度建设导致供给过剩,供给过剩将烧掉资本。
两篇文章本质上都在问同一个问题:谁来填补这个窟窿?答案从未出现在账本的“训练”一侧,而是出现在推理一侧,且市场直到最近几周才开始在定价中反映它。
2. Cerebras上市与推理挤压
Cerebras于周四上市。此次IPO获得了20倍的超额认购,定价较周三最终上调后几乎翻倍。需求并非来自对“下一个英伟达杀手”的押注,而是源于一个更简单的认知:市场开始理解,AI的真正瓶颈是推理,而非训练。
Cerebras的专长在于一种让推理极快的芯片架构。它不是为了训练,而是为了推理。这正是让华尔街兴奋的地方。推理市场是持续性的,随使用量扩张。每次Claude回答一个问题,每次智能体(agent)执行一项任务,都会消耗算力。训练只发生一次,而推理永不停歇。
摩根大通估计,推理市场的规模是训练市场的10到50倍。当机器开始执行由其他机器分配的任务——即智能体(agentic)扩张——推理需求不再随用户数量增长,而是随算力本身增长。
3. 英伟达重绘版图:推理走向C位
如果说Cerebras代表了市场的觉醒,那么英伟达最新一季的财报就是来自供应链顶端的确认。在最新财报电话会上,黄仁勋(Jensen Huang)道破了那个不言而喻的真相:AI需求正呈抛物线式增长。原因很简单:智能体AI已经到来。主流AI已从一次性推理过渡到逻辑推理,再发展到能够自行调用工具、编排任务的智能体阶段。黄仁勋表示:“Token现在已能盈利。”在AI时代,算力等同于收入和利润。
这重塑了整个行业。训练是构建模型的一次性成本,而推理是运行模型的经常性成本,且当前的瓶颈在推理,而非训练。
英伟达已将这一判断纳入财务报告。它现在将业绩披露从单一平台拆分为两个:数据中心(Data Center)与边缘计算(Edge Computing)。数据中心(本季度约750亿美元,同比增长92%)进一步拆分为超大规模(Hyperscale,约380亿美元,环比增长12%)和ACIE(包括AI云、工业及企业,约370亿美元,环比增长31%)。新增的一条线是边缘计算:64亿美元,同比增长29%,涵盖智能体AI和物理AI真正运行的终端——PC、工作站、AI-RAN基站、机器人和汽车。
边缘计算目前占总收入不到8%,但英伟达已将其提升到与数据中心并立的“第二平台”。这释放出一个信号:推理正在分裂为两个战场——数据中心内的云推理,以及边缘上的端侧推理,后者是AI需要在物理世界中看、动、作的地方。路线图遵循同样的逻辑:Vera Rubin将于第三季度开始出货,其推理吞吐量最高可达Blackwell的35倍;黄仁勋还为面向智能体工作负载的Vera CPU给出了2000亿美元的新总可寻址市场(TAM)。预计所有主流模型公司都将在上市首日全面转向它。
随着地球上市值最高的公司围绕“服务Token”重组其财务披露,关于瓶颈的争论早已结束。本文余下部分将讨论:当推理(而非训练)成为稀缺资源时,谁将捕获价值。
首先做一个范围澄清。本文讨论的是云推理,即租用数据中心GPU提供API Token服务。端侧推理运行在设备自身的本地芯片上(英伟达的Jetson、RTX、Drive、AI-RAN),完全绕过了其下的GPU租赁与聚合层。在此,请将其视为放大整个推理经济、支撑瓶颈论据的顺风,而非Hyperbolic和Venice所运营的完全在云端的领域。
4. “挤压”已经到来
Anthropic就是那只矿井中的金丝雀。使用量远超预配置容量,关于Claude被“抽走脑髓”的抱怨充斥网络,包括被限流的响应、放缓的推理、压缩的上下文窗口。解决方案毫不含糊地指向算力:2026年5月,Anthropic接管了SpaceX的整个Colossus 1数据中心,拥有超过22万张英伟达GPU和300多兆瓦电力,专门用于推理而非训练。
这一系列容量解锁带来了一系列配额变动,每一个都是信号。5月6日,Anthropic将Claude Code的五小时限额翻倍,解除了高峰时段的限流,并大幅提高了Opus的API速率限制。5月13日,它将Claude Code的周限额再提高50%(有效期至7月13日)。然后,从6月15日起,它做了与“慷慨”相反的事:它将智能体和程序化使用(Agent SDK、无头模式 claude -p、CI流水线)从固定订阅中剥离,纳入独立计量的信用额度池(每月20至200美元不等,按API费率计费)。这最后一步将整个论点浓缩为一个动作:智能体消耗推理的速度远超固定订阅的设计容量,因此必须按其原本的“经常性成本”来定价。
训练是一次性的资本支出。推理是经常性的运营成本,随每一位新用户和每一个新智能体而复合增长。
5. 这个堆栈:六层,一个瓶颈
每个AI应用都位于一条供应链之上,这条供应链从台积电(TSMC)的晶圆制造开始,到API端点结束:


大多数公司只拥有这一堆栈中的一层。英伟达拥有硅片层,CoreWeave拥有裸金属层,Together AI拥有推理优化层,OpenRouter拥有模型API路由层。
只有一个例外。
6. Hyperbolic:唯一跨越三层的公司
Hyperbolic于2025年6月推出了按需GPU市场。在最初几个月内,其开发者数量突破20万+,覆盖前沿AI实验室、搜索引擎和大型消费级平台。
有趣的是它的架构。
Hyperbolic不拥有一张GPU。每一张卡都来自新云(neocloud)和数据中心,包括CoreWeave、Lambda Labs、Nebius,以及拥有闲置容量的更小运营商。这听起来像弱点,实则是一道护城河。
通过坐在GPU供应商与消费者之间,Hyperbolic能看到其他人看不到的实时数据。它知道谁在用什么价格购买什么GPU,以及何时购买。它在供给过剩公开化之前就能发现,在市场感受到需求激增之前就能察觉。
如今,护城河本身就是这种多云聚合。Hyperbolic将数十家独立云和数据中心碎片化的容量缝合成一个标准化的统一池,让开发者无需与每个运营商谈判或管理一堆账户,就能租到全球最便宜的可用GPU。它连接的云越多,流动性越深,定价数据越丰富。此外,团队正在探索如何利用这些数据为GPU价格曲线建模,并最终投入自有资本来平滑供需,充当物理算力的做市商;但这一目标仍处于早期阶段,当下真正产生复利效应的是聚合层。
这就是飞轮:
连接更多云 → 聚合更多供给
更多供给 → 更深的市场与实时定价数据
更好的数据 → 当下更智能的路由,以及长期的定价模型
更好的流动性与价格 → 吸引更多开发者 → 更多云希望接入
没有其他公司正在尝试这样做。Hyperbolic是唯一一家横跨GPU租赁层、部署层和模型API层的公司。
7. Venice作为一面镜子
Venice是推理经济在应用层最清晰的体现,也是理解Hyperbolic位置的一个有用对照。它是一个隐私优先的推理应用:一组兼容OpenAI的API,加上面向消费者的订阅(Free / Pro / Pro+ / Max),将请求路由到约75个模型,其中三分之二是开源或自托管模型(Llama、Mistral、Qwen、DeepSeek),其余是闭源前沿模型的匿名透传。关键在于,Venice并不拥有有意义的算力。它向未公开的GPU合作伙伴和机密计算提供商(NEAR AI Cloud、Phala)租用算力,并为透传向前沿实验室付费,因此其真正的收入成本是推理算力,而非SaaS托管。
Venice真正售卖的是隐私。这里的“私有化”不是将公共算力变为私有财产,而是将商品化的推理包裹在一层保障之中:不保留数据、不用于训练、请求匿名化,部分工作负载在TEE(可信执行环境)中运行,使运营商无法看到明文。底层算力是商品化的,溢价来自这层隐私包装。而且,这种保障是分层的、非均质的:对于在其控制的GPU或TEE上运行的开源模型,它能实现接近端到端的机密计算;但对于Claude、GPT等闭源模型的匿名透传,隐私仅剥离了身份,而另一端的前沿实验室仍在处理你的原始提示。因此,最强的隐私只覆盖开源部分,而前沿模型部分只是“匿名”而非“真正机密”。Venice的毛利润 = 订阅价格 - 向下游支付的推理成本,其能在裸API价格之上收费的部分,几乎完全依赖这层隐私溢价,这正是它以微薄利润运营、并受前沿透传定价约束的原因。
Token设计已将这部分推理需求打包。Venice运营两种代币:VVV(质押与平台权限)和DIEM,后者是推理积分,每个DIEM大致相当于每天1美元的算力。付费订阅会触发对VVV的程序化回购(Pro / Pro+ / Max约2/5/10美元),排放按固定时间表递减:每月从600万 → 500万 → 400万VVV,并于7月1日下调至300万。回购是真实的但属酌情决定,且规模仍小:4月和5月均销毁约10.3万美元,6月正缓慢爬升至约11万美元,远低于每月20万美元的线。
基本面比标题更健康。公开流传的“7000万美元ARR”几乎肯定是将订阅续费误算为净新客户获取;一个可防御的可观测范围更接近600万至1500万美元ARR。在此之下,牵引力是真实的:约13.6万个独立钱包地址,每月约990万次网站访问(每日约33万),新增Pro订阅稳定在每日约1400个。这是一门真实的生意,但一门低利润的生意,其经济模型受限于它所购买的算力。
这正是Hyperbolic比它高一个层级的原因。如果Venice是加油站,Hyperbolic就是炼油厂。Venice从人人依赖的同一受限供给中购买算力;Hyperbolic则聚合并标准化这些碎片化供给,再卖给Venice及所有类似玩家。随着推理需求增长,价值不仅向消耗算力的应用层累积,也向聚合、路由算力并捕获这些应用收入成本的层级累积。
8. 为何此事此刻至关重要
英伟达已围绕“服务Token”重组财务。Cerebras的IPO证明市场已理解推理就是瓶颈。Anthropic疯狂寻找容量表明这是真问题。智能体和物理AI将把需求放大数个数量级,横跨云与边缘两条战线。
此外,它也从另一侧闭合了“6000亿美元问题”的循环。Cahn的看空逻辑——过度建设导致供给过剩——很可能被验证。但供给过剩对轻资产聚合器而言正是最优场景:当GPU价格下跌、供给碎片散落在数十朵云中,不拥有任何硬件、将每个工作负载路由至最便宜可用卡片的玩家将赚取价差,而持有贬值GPU的运营商将承担损失。Hyperbolic押注的是供给过剩,而非做空它。
最终胜出的公司不会拥有最多GPU,而是能告诉你哪里有可用GPU、价格几何,并将每个工作负载路由至运行成本最低之地的公司。
Hyperbolic正在构建这样的公司。它不拥有GPU,纯软件运营,跨越三层,却正成为推理算力的终极聚合层。