Coinbase AI支出降近50%是怎么做到的?开源模型默认替换与缓存优化解析
Coinbase CEO Brian Armstrong介绍公司通过默认采用GLM 5.2、Kimi 2.7等开源权重模型,结合自动模型路由与缓存优化机制,在Token使用量增长的同时将AI支出降低近50%的具体做法。
- Coinbase
- AI成本优化
- 开源权重模型
- GLM 5.2
- Kimi 2.7
Coinbase CEO Brian Armstrong近期发文介绍了公司在AI成本优化方面的最新进展。随着内部AI使用量和Token消耗持续上升,Armstrong认为控制成本的关键并非限制员工使用或频繁发送预算提醒,而是优化默认模型选择、任务路由机制与缓存策略。
据其透露,Coinbase正尝试通过内部LLM网关将GLM 5.2、Kimi 2.7等开源权重模型设为默认选项,同时仍允许工程师依据具体任务需求选用其他模型。公司内部数据显示,91%的员工从未达到AI使用配额上限,因此Coinbase并未选择收紧配额,而是通过引入更低成本的模型方案来提升整体效率。
在模型路由层面,Coinbase会对提示词进行预处理,并结合缓存命中率与不同模型的定价,自动将任务分配至最合适的模型。Armstrong指出,规划与推理等复杂任务可能需要尖端模型支持,但执行类任务未必需要调用高成本模型。他同时表示,未来的模型选择流程应更多由AI自动完成,而非依赖人工决策。
Armstrong强调,缓存命中率是影响AI成本的重要因素之一。Coinbase已在请求流程中融入缓存感知机制,以提高历史结果的复用率。他以LibreChat为例说明,在优化缓存方案后,其缓存命中率已从5%提升至60%。
此外,公司要求工程师尽可能保持上下文简洁,具体做法包括切换任务时开启新会话、缩小文件上下文范围以及关闭未使用的工具,从而减少不必要的Token消耗。
Armstrong表示,通过上述措施,Coinbase已成功将AI支出降低近50%,而Token使用量仍在持续增长。
降本核心措施一览
梳理Coinbase降低AI支出的四项关键动作:一是内部LLM网关默认接入GLM 5.2与Kimi 2.7等开源权重模型,保留工程师手动切换权限;二是建立基于提示词预处理、缓存命中率与模型定价的自动路由系统;三是在请求链路中嵌入缓存感知机制,提升历史结果复用;四是要求工程师切换任务时开启新会话、关闭闲置工具并压缩文件上下文范围,减少无效Token消耗。
关键数据怎么看
文中披露三组值得关注的数据:其一,AI支出下降近50%,但Token消耗仍在增长,说明单位Token成本被显著压低;其二,91%员工未达配额上限,表明单纯限流对多数团队效果有限,替换底层模型更具性价比;其三,LibreChat缓存命中率由5%提升至60%,直接减少了重复计算带来的资源浪费。
后续可观察指标
Armstrong提到未来模型选择应由AI自动完成,而非人工决策。后续可留意其内部网关是否进一步扩展开源模型覆盖范围,以及自动路由策略能否在代码生成、规划推理等高复杂度场景中维持成本与效果的平衡。在Token用量持续攀升的背景下,缓存命中率能否继续提升也将是衡量优化空间的重要依据。