AI算力账单激增:微软紧急调整工具策略,Uber半年耗尽全年预算
近期,一系列与AI算力成本相关的消息在科技行业引发关注。微软已紧急叫停部分团队的Claude Code许可证,并强制相关员工迁移至其自有工具Copilot。与此同时,出行服务公司Uber的5000名工程师在仅4个月内便耗尽了全年的AI预算。甚至连GPU制造商英伟达的一位副总裁也坦言,对其团队而言,AI成本已超过人力成本。
微软调整内部工具部署
据消息显示,微软已对内部的开发者工具使用策略做出调整。其举措包括停止使用Claude Code许可证,并将相应人员统一引导至微软自家的Copilot平台。这一动作被外界视为在高昂的算力账单面前,公司进行的“止血”操作。
微软紧急叫停Claude Code许可证「止血」,全员被强制迁移至自家的Copilot。
Uber工程师预算超支细节
另一桩受到关注的事件发生在Uber。根据公开信息,该公司约5000名工程师仅用了4个月时间,就已经将全年设定的AI预算全部用完。这一速度反映了大规模团队在使用AI工具时,算力消耗的快速增长。
- 涉及人数:5000名工程师
- 时间跨度:4个月
- 结果:全年AI预算烧光
英伟达高管坦言成本结构变化
即便是全球GPU市场的领先者英伟达,也未能回避AI成本上涨的影响。该公司一位副总裁公开表示,“对我的团队而言,AI成本已超过了人力成本”。这一表态意味着,在部分科技公司内部,计算资源的开销正在成为比人员工资更显著的支出项。
行业影响与归因
这三起事件共同指向一个现象:硅谷大厂正在被日益高企的AI算力账单所反噬。当AI应用从实验阶段转向规模化部署,其带来的“Token账单”正快速消耗企业的财务预算。上述案例显示,即便是资金充裕的头部企业,也开始通过调整工具组合、重新规划预算等方式,来应对这一成本压力。

高盛预计2030年Agent Token月消耗量增长24倍
高盛集团近日发布最新报告,对AI Agent领域的Token消耗量进行了预测。报告指出,预计到2030年,AI Agent所消耗的Token用量将出现显著增长。
月度Token消耗量数据
根据高盛的测算,至2030年,Agent每月消耗的Token数量将达到120千万亿个。与当前水平相比,这一数字意味着增长24倍。
“预计到2030年,Agent所消耗的Token用量将增长24倍,达每月120千万亿个Token。”
Token用量解读
Token是AI大模型处理文本时的基本单位,通常一个汉字或一个英文单词可能对应一个或多个Token。Token消耗量的增长,直接反映AI Agent在运行过程中产生的数据处理和推理需求的扩大。

AI推理成本攀升:Token消耗成为行业核心挑战
2026年,AI行业达成了一项迟来的共识——推理,正在取代训练成为新主战场。当智能体从概念走向实际落地,每一次对话、每一帧视频分析、每一轮基因测序都在消耗海量Token,一个朴素的算术题开始浮出水面:钱不够烧了。
从“买断制”到“租赁制”:成本逻辑的转变
过去工业革命的底层逻辑是“买断制”——建工厂、买设备的初始成本极高,但一旦机器运转,多生产一件产品的边际成本极低,机器不需要按时薪结算,产量越大,平摊到单件上的成本越低,曲线趋于平缓。而在AI时代,逻辑变成了“租赁制”:初始成本近乎为零,用户只需按Token付费来“租赁”AI的思考能力。
这种模式在简单任务中看似高效,但面对复杂任务时,Token消耗会呈指数级爆炸,直接推高推理账单。
Agent落地暴露的算力瓶颈
以Agent为代表的落地形态正在放大这一矛盾。每一次交互背后的推理过程都需要消耗token,累计下来的账单迅速膨胀,成为制约大规模商业化的关键因素。
“Token烧不起,落地太难了”——这已成为行业内的普遍感受。
术语拆解:Token与推理成本
- Token:素材中指AI模型在处理文本、图像或基因数据时的基本计算单元,每一次对话、分析都按Token数量计费。
- 推理成本:指使用模型进行预测或生成时产生的计算资源消耗换算成的费用,区别于模型训练成本。
当前的行业困境在于:Agent从概念进入落地阶段后,推理成本呈指数级增长,但企业的预算增长并未跟上。业内人士指出,如果不改变成本结构,许多高价值场景将难以持续运营。
对行业市场的直接影响
推理成本的高企直接导致AI服务定价压力增大,迫使厂商在模型压缩、边缘计算等降本路径上加速探索。短期内,能够有效降低Token消耗的技术方案将获得更高商业溢价。

AI Agent高频调用与多模态体积导致成本交叉点:三层次架构错配解析
当硅谷一批公司纷纷抱怨“Token太贵”时,业内分析指出这并非单纯的涨价问题,而是当前AI技术架构与落地场景之间存在系统性的错配。一个“成本交叉点”正在浮现:简单任务上AI远比人工廉价,但复杂循环任务的高昂API账单已反超人类薪资。
第三层错配:长上下文窗口推升自注意力计算量
上下文窗口从4K扩展到128K乃至百万级,被视为大模型工程能力的显著进展。但Transformer的物理现实不容回避:自注意力机制的计算量为O(n²),上下文长度每翻10倍,注意力计算量翻100倍。这意味着长文档、多轮对话等场景直接抬升每次调用的资源开销。
“上下文窗口翻10倍,注意力计算量翻100倍。”——素材原文引用Transformer自注意力计算量公式
第一层错配:Agent“永不下班”的循环思考模式
Agent时代的逻辑区别于传统一问一答:它需要经历“规划→执行→观察→反思→再规划”的闭环,每轮都调用一次大模型,且7×24小时运转,持续监控、验证、调用外部工具。一个人类员工一天问十几个问题,一个Agent一天调用API上万次。Uber 5000名工程师四个月烧光全年预算,根本原因正是每个Agent背后都是一台不停转的“Token印钞机”。
第二层错配:多模态输入使推理“体积”暴涨
文字是AI最轻量的形式,一段对话只需几百个Token。但2026年的AI已不再只处理文字:一张图几千个Token,一段60秒视频几十万个Token,一次完整基因测序分析可能消耗上百万个Token。GPT-4o、Gemini等多模态模型成为行业标配后,每次推理需处理的Token数量整体抬升一至两个数量级。人们以为在调一个API,实则是在喂一整部电影。
- Token释义:Token是AI模型处理文本、图像、视频等数据的基本单位,通常一个汉字或英文单词对应1-2个Token,图像和视频则按像素/帧数折算为更大量级。
- 成本交叉点逻辑:简单任务AI更廉价,但复杂高循环任务因高频调用和多模体量,API账单反超人类薪资,体现架构与场景的错配。

墨芯人工智能完成近十亿元C轮融资,稀疏计算芯片年内推新品
AI芯片公司墨芯人工智能近日宣布完成C轮融资,金额近十亿元人民币。本轮融资汇聚深创投、岩山科技、大湾区共同家园、力鼎资本、蕴盛资本等产业资本及市场化机构,凯旋创投、华大松禾天使基金、创享投资、盛景嘉成等老股东也持续加码。这标志着稀疏计算技术路线正从算力演进的“可选项”向“必选项”加速转变。
稀疏计算:只激活相关参数,降低无效运算
稀疏计算的核心逻辑是只激活与当前任务相关的少量计算模块,其他模块保持休眠。例如,当AI处理“智齿疼怎么办”这类问题时,传统稠密大模型会让几乎所有参数参与推理,而稀疏计算仅调用与医学、牙科相关的模块,用更少计算量获取相同答案。这种理念在硬件层面的实现极为复杂,墨芯已在该方向深耕八年。
稀疏计算的核心理念是:只计算有效信息,跳过冗余参数。
S30、S40计算卡三夺MLPerf冠军,稀疏计算工程化获验证
墨芯旗下S30、S40计算卡已在国际AI基准测试MLPerf Inference中斩获“三连冠”。在视觉、自然语言处理、大模型等主流任务中,该产品以低于行业旗舰的功耗实现了更高的推理性能,单位算力吞吐与能效比全面领先。这证明了稀疏计算在真实数据中心负载下的工程化落地与商业可行性。
新一代计算卡SparsePrime年内上线,支持零代码迁移
墨芯同步宣布全新一代计算卡SparsePrime将于年内正式推出。该卡面向智算中心和数据中心,基于自研Antoum 2.0芯片架构,专为大模型与复杂推理场景优化设计。开发者可基于PyTorch、TensorFlow等现有框架和vLLM等推理框架实现近乎零代码修改的迁移部署,同时支持Triton语言进行自定义算子开发。SparsePrime的性能目标为精度无损、算力翻倍,并基于多个千卡集群的负载数据进一步突破稀疏计算效率。
- 零迁移成本:现有模型代码可近乎零修改部署运行。
- 性能目标:精度无损,算力翻倍。
全国四片区部署千卡集群,西区项目入选央媒案例
墨芯已进入“全国多区域千卡集群部署”的规模化实战阶段,在西北、西南、华东、华北四大片区实现部署。西北片区部署的千卡级推理集群,支撑传统产业智能化转型,涵盖电子制造、消费品生产等场景的工厂安防项目。其中,陕西国资算力中心千卡集群项目已入选人民网“人民匠心技术案例”,获得央媒层面认可。

墨芯构建「芯片+算法+集群+生态」系统能力 稀疏计算布局全国三大片区
墨芯日前披露其在西南、华东、华北三大片区的算力基础设施与商业应用布局。该公司依托绿电资源、高性能AI算力集群及视觉多模态大模型,分别面向低功耗算力池、生命科学与医疗健康、城市治理等不同方向进行部署。
这一定位与国家宏观战略高度共振——「十五五」规划强调数字经济核心产业增加值占比达12.5%,「东数西算」工程要求新建枢纽节点数据中心绿电占比超过80%,今年两会更将「算电协同」确立为新基建关键方向。
西南片区:探索「算力飞地」模式
在西南片区,墨芯结合当地充沛的绿电资源,构建低功耗绿色算力池,探索「算力飞地」模式。该模式旨在将东部算力需求与西部绿色电力资源精准对接,实现跨区域资源配置。
华东片区:聚焦生命科学与高端服务业
华东片区聚焦生命科学与医疗健康等高端服务业,前瞻部署高性能AI算力集群。墨芯目前已携手行业头部企业,为高通量测序、蛋白质结构预测等计算密集型任务提供澎湃算力。
一次基因测序的数据分析流程,借助稀疏计算可以大幅提速,对于争分夺秒的临床决策来说,这就是实实在在的价值。
华北片区:落地视觉多模态大模型应用
华北片区则赋能城市治理与社区智能化升级,全面落地人脸识别、姿态分析等视觉多模态大模型应用,构筑全天候、实时化的异常行为智能监测与预警体系。
产学研布局:从CMU到清华复旦
在产学研方面,墨芯构建了覆盖国内外顶尖学府的合作网络。国外方面,墨芯与CMU围绕推理加速和稀疏化训练等关键技术深度合作,LLM稀疏化训练已取得阶段性成果。国内方面,墨芯与复旦大学就「半结构化稀疏」开展横向课题合作,与清华大学CCNI Lab和SparseMind推进「稀疏计算」前沿课题探索,并与杭州电子科技大学成立稀疏计算联合实验室。
稀疏计算是指利用数据或模型中大量零值元素的特点,通过跳过这些零值的计算来降低运算量、提升效率的计算范式。
行业趋势:推理时代效率为王
从行业趋势来看,头部大模型纷纷采用稀疏MoE架构,从模型层面验证了不需要每次调动全部参数的合理性。华为「韬定律」的核心,是在先进制程之外,靠系统架构、集群协同和算法优化把算力价值榨出来。每一个趋势都在指向同一个结论:推理时代,效率为王。
墨芯计划在年内推出SparsePrime,该产品将进一步完善其「芯片+算法+集群+生态」的系统能力。
