全球 AI 算力与 Token 消费:需求曲线、成本下降与价值链受益地图
天际研究 · AI 实验室 · 2026.03.15 · 全文 22 页 · 预览 3 页
摘要
2025—2026 年,全球 AI 产业在生产流量层面越过了拐点:Token 不再只是技术指标,而正在成为一种可计量、可定价、可规模化的经济单位。本报告以 a16z 与 OpenRouter 联合发布的《1000 亿 Token 实证研究》(2025 年 12 月)为核心数据底座,结合 NVIDIA GTC 2026 的"AI 工厂 / 每瓦特 Token"叙事、xAI Colossus 与 SpaceX-xAI 合并所代表的"算力至上"路线,以及应用层"软件吞噬软件"理论,系统拆解 Token 需求曲线、单位成本下降(LLMflation)与 Jevons 悖论,并绘制一张中性的 AI 价值链受益地图:从感知层、硅基层、模型层,到编排层、具身层与隐性的能源层。核心判断是,在单价持续下行的市场里,纯粹"生产 Token"的中间环节易陷价格战,而价值正向曲线两端——以成果定价的智能体编排层与把 Token 转化为物理动作的具身层——迁移,能源(可用吉瓦)则成为决定产出上限的硬约束。本报告仅作行业研究与产业分析,不构成任何投资建议。
关键发现
- 01OpenRouter 周处理量从 2025 年中约每周 5 万亿 Token 跃升至 2026 年 5 月的约 25 万亿 / 周(月度约 100 万亿),半年增长 5 倍;其 2026 年 5 月完成 1.13 亿美元 B 轮(CapitalG 领投),投后估值约 13 亿美元。
- 02推理模型在全部 Token 中的占比从 2025 年初接近零升至年底超过 50%,由 2024 年 12 月 OpenAI o1 发布引爆;编程已成为 OpenRouter 上占比超 50% 的最大用例,智能体推理(模型多步连续行动)是增速最快的行为。
- 03OpenAI API 处理量从 2025 年 DevDay 的每分钟约 60 亿 Token 升至 2026 年 3 月的每分钟约 150 亿(约每日 21.6 万亿),开发者达约 400 万;行业日均 Token 处理量已达数十万亿量级。
- 04中国开源模型全球份额从 2024 年底约 1.2% 升至 2025 年约 30%,由 Qwen、DeepSeek、Kimi 等驱动;2025 年 9 月 Qwen 超越 Llama 成为 Hugging Face 下载量最大的模型家族,西方专有模型仍保有约 70% 份额。
- 05LLMflation:同等能力模型每百万 Token 价格三年下降约 1000 倍(a16z),但企业 AI 总支出不降反升——2023—2025 年单价下降约 280 倍,企业 AI 支出却增长约 320%,推理已占 AI 基础设施支出约 55%(2023 年为 33%),典型 Jevons 悖论。
- 06算力与能源成为新瓶颈:xAI 孟菲斯 Colossus 2026 年 1 月扩至约 2 GW、约 55.5 万块 GPU、约 180 亿美元;SpaceX 于 2026 年 2 月 2 日以全股票方式合并 xAI(合计估值约 1.25 万亿美元),并申报 Starmind 轨道数据中心星座;Gartner 预计 2026 年全球数据中心用电增长约 26%—27%、达约 132 GW,约 50% 的全球项目因电力受限延期。
引言:当 Token 成为一种新的经济单位
数据更新至 2026-06-28。
过去十八个月里,AI 产业最重要的变化不是某一个模型的发布,而是一组真实生产流量数据的出现。截至 2025 年底,仅 OpenRouter 这一家多模型推理路由平台,一年内处理的 Token 数量已超过 100 万亿(13 个月口径),较一年前的约 10 万亿增长约 10 倍;进入 2026 年 5 月,其周处理量已攀升至约 25 万亿 Token、月度约 100 万亿,半年再增 5 倍(来源:a16z/OpenRouter《State of AI》;BusinessWire,2026-05-26)。与此同时,OpenAI API 的处理速度从 2025 年 DevDay 的每分钟约 60 亿 Token,提升到 2026 年 3 月的每分钟约 150 亿(约合每日 21.6 万亿)(来源:getpanto.ai,2026)。这些不是预测,而是已经发生的账单数据。
在这一背景下,NVIDIA 创始人黄仁勋于 GTC 2026 提出了一个被广泛引用的叙事:传统数据中心正演化为"AI 工厂"——以电力和数据为原料,以 Token(机器生成的智能)为产出——并给出公式"营收 =(每瓦特 Token)×(可用吉瓦数)"(来源:NVIDIA Developer Blog;FinancialContent,2026-03-20)。这句话的意义在于:它第一次把"半导体能效"与"电力供给"放进了同一个关于产出的方程,使 Token 获得了与原油、千瓦时类似的属性——可标准化计价、可规模化生产、价值随经济活动放大。本报告即以这一视角,拆解全球 AI 算力与 Token 消费的需求曲线、成本结构与价值链分布。
第一章:100 万亿 Token 全景——规模、速度与结构
增长速度。2024 年 11 月,OpenRouter 年处理量约 10 万亿 Token;到 2025 年中已达 100 万亿,全年约 10 倍扩张;2025 年 11 月末单日处理量首次突破 1 万亿。进入 2026 年,平台周处理量约 25 万亿、月度约 100 万亿,服务超 800 万用户、覆盖 400 多个模型(来源:a16z/OpenRouter《State of AI》;TechCrunch,2026-05-26)。
增长的本质:从问答到智能体工作流。推动 Token 爆发的核心驱动力是"智能体推理":AI 系统调用其他 AI、编排多步骤工作流、调用工具与 API、跨会话持久化状态。2025 年底,LLM 请求的中位形态已不再是一次性问答,而是结构化的类代理循环。平均提示长度从约 1,500 Token 扩展至 6,000 以上(约 4 倍),平均输出从约 400 升至 1,100 以上;编程类请求的提示常超过 20,000 Token(来源:a16z/OpenRouter《State of AI》)。
推理模型革命。2024 年 12 月 5 日 OpenAI o1 的发布,是本轮 Token 周期中最重要的单一事件。推理模型在全部 Token 中的占比,从 2025 年初接近零升至年底超过 50%,可能是 AI 历史上最快的架构范式转变采用曲线。其底层逻辑是:更便宜的 Token × 每任务更多 Token = 总需求净扩张。编程已成为 OpenRouter 上占比超过 50% 的最大用例(来源:a16z,《State of AI》,2025-12-04)。
第二章:全球 Token 消费的地理与行业分布
地理分布。美国仍是全球最大的 AI Token 消费国,2025 年底约占全部 Token 量的 47%,根基在于最大的开发者社区、最成熟的云 AI 基础设施与最深的企业采用。亚洲份额从约 13% 升至约 31%,其中新加坡约占 9%(东南亚开发者枢纽与中国模型出海切入点),中国境内份额(约 6%)被显著低估——大部分流量经由国内平台(通义、文心、豆包、混元)流转,未被 OpenRouter 捕获;简体中文已是全球第二大语言。欧洲整体约 12%,仍是 AI 算力的净进口方,法国的 Mistral 是其前沿代表(来源:a16z/OpenRouter《State of AI》)。
行业分布。一个反直觉的发现:在开源模型的全部流量中,创意/角色扮演类(游戏、叙事、陪伴)占比过半,而非企业生产力;编程则是专有模型的统治性场景。更关键的是"每 Token 收入"的巨大差异——法律、医疗、金融等专业 AI 今日 Token 量虽小,但单位 Token 货币化能力可比娱乐聊天高出一到两个数量级。这一结构直接解释了为何价值会沿价值链分层沉淀:高频低价值的消费娱乐撑起流量底座,低频高价值的专业智能体撑起利润顶端。法律 AI 公司 Harvey 在 2026 年 3 月以 110 亿美元估值完成融资、服务 60 国 1,300 多家机构、ARR 约 1.9 亿美元,是专业 AI 货币化的标志性案例(来源:CNBC,2026-03-25;Harvey 官方博客)。
📄 完整报告
完整报告共 22 页 · 仅向合格投资人与合作伙伴定向提供
以上为公开预览。完整版包含以下章节,依合规要求不在公开页提供、亦不提供免费下载——请联系天际同事索取。
- 🔒第三章:模型格局——开源与专有的权力重构
- 🔒第四章:留存率经济学——为何"先发垂直占位"比性能更重要
- 🔒第五章:算力至上路线——Colossus、轨道数据中心与能源瓶颈
- 🔒第六章:应用层为王——软件吞噬软件与智能套利
- 🔒第七章:Token 微笑曲线——价值为何向两端迁移
- 🔒第八章:价值链受益环节分析(感知/硅基/模型/编排/具身/能源)
- 🔒第九章:决定未来五年 AI 格局的五大宏观趋势
本报告为天际资本 AI 实验室出品的产业研究,基于公开信息整理,不构成投资建议;不含基金业绩、AUM 或募资要约。