OpenAI 的命门,决定了大模型公司的未来
日期:2025-09-04 16:46:52 / 人气:4
如果 Scaling Law 是指导大模型能力提升最重要的标尺,那么 “算力成本控制” 就是大模型行业发展和商业化的基石。2025 年年初,DeepSeek 在国外开源社区首先爆火,一个很重要的原因就是,DeepSeek 几乎将同性能模型的推理算力和训练算力成本都降到了 10% 以内。MoE 架构也在 GPT-4 发布之后,逐渐取代了稠密架构,成为了几乎所有大模型开发商的默认选项,最核心的原因也是能够有效降低模型推理的算力成本。而 OpenAI 伴随着 GPT-5 发布第一次与用户见面的 “路由(routing)” 功能,设计本意也是代替用户来把简单问题匹配到低消耗模型,复杂问题匹配到能力和算力消耗高的推理模型,从而有效提升用户体验和算力效率,但却变成 AI 圈最知名的 “降本增笑” 事件。即便是 GPT-5 发布接近了一个月,OpenAI 还是没有能让所有用户满意,网友依然还在吐槽,GPT-5 没有办法解决一些很简单的问题。虽然随着 OpenAI 回滚了 GPT-4o,还让用户能够手动在推理模型和基本模型间切换,让大多数用户开始同意 OpenAI 宣称的 “GPT-5 性能明显强于之前的模型”,但是 Sam Altman 自己也没有办法否认,GPT-5 的发布确实是漏洞百出。而造成翻车最直接的原因,就是他们强推的路由功能没能将用户的预期和相应的模型能力匹配好。
一、为何 OpenAI 强推路由功能
在 GPT-5 发布前,OpenAI 并行推出 5 个以上模型,用户难以抉择。对于欲将 ChatGPT 打造成 AI 时代超级 APP 的 OpenAI 而言,这一状况不容持续。尤其是大量新接触大模型的普通用户,急需 OpenAI 协助其选择合适模型。
从算力成本角度深入剖析,推理模型出现后,每次大模型询问都需在推理与非推理模式间抉择。这种调配 “深度思考” 能力的效率,直接关乎大模型产品对算力的运用效率。据学术界研究,推理模型与非推理模型的算力差异可达 5 - 6 倍。复杂问题经思维链等技术推理后,内部消耗的推理 token 数可能多达上万个。延迟方面,推理与非推理过程差异更为显著,OpenAI 数据显示,使用推理模型回答复杂问题的时间,可能是非推理模型的 60 倍以上。而且,对于许多复杂推理任务,即便消耗大量算力与时间,结果准确性提升往往仅在 5% 左右。那么,为这 5% 的性能提升,投入多少算力才合理?
简单计算,若 OpenAI 默认所有任务用推理模型,路由功能若能识别 10% 的简单问题用非推理模型完成,在推理与非推理算力比值为 5:1 的情况下,就能降低 8% 的算力成本。比例进一步提高,降低的成本将更可观。对于服务数亿用户且算力紧张的 OpenAI 来说,路由功能的成败,关乎商业模式能否持续。
在行业层面,第三方平台如 OpenRouter 将 “自动路由与回退(fallback)” 打造成基建能力,主模型拥塞、限流或内容拒绝时,可按策略自动切换到次优模型,稳定用户体验。微软 Azure 等 AI 算力云供应商,也将模型间路由能力作为 AI 云计算的重要卖点。或许,GPT-5 发布后,OpenAI 的当务之急是在 “质量 - 延迟 - 成本” 三角中,为每条请求寻找最优平衡点。目前官方对 GPT-5 的定位与 “内置思考(built-in thinking)” 叙事,实际就是将 “路由 + 推理强度” 设为默认能力,并在 ChatGPT 端通过 “Auto/Fast/Thinking” 给予用户一定可见与可控性。
二、打造高效路由功能的难度
外媒就打造高效大模型路由功能的难度,向 UIUC 计算机专业助理教授求证,得到的答案是这可能是个类似亚马逊推荐系统级别的难题,需众多专家多年努力才可能获得满意结果。模型系统层面的路由功能本质上是 “多目标 + 强约束” 的工程问题,不仅要追求准确率,还需在质量、延迟、成本、配额 / 峰值容量、成功率等多方面实时优化。
理论上,语义级别的路由功能在效率上并非最优解。DeepSeek 上周推出的 DeepSeek V3.1 就尝试混合推理与非推理模型,构建更高效的路由系统,从根本上提升大模型 “推理 - 非推理” 选择效率。网友体验发现,新的混合推理模型思考速度更快,相比 DeepSeek-R1-0528 能在更短时间得出答案。并且在回答性能相似时,输出长度明显下降,简单问题推理过程缩短 10% 以上,正式输出部分大幅精简,平均仅 1000 字,较 R1 0528 的 2100 字水平提升近一倍。
然而,新的混合推理模型也暴露出稳定性问题,如输出中不时出现莫名其妙的 “极” bug,R1 上就存在的中英夹杂情况也愈发严重,在中文任务中表现欠佳。即便像 DeepSeek 这样顶尖的大模型团队,将 “推理 - 非推理” 选择功能内置到模型内部,模型稳定性仍受影响。OpenAI 和 DeepSeek 在各自首个调度 “深度思考” 能力的模型上均出现不同程度翻车,侧面反映出解决该问题的艰巨性。
三、OpenAI 对算力的 “极度渴求”
年初,DeepSeekV3 和 R1 的推出引发对英伟达等算力供应商前景的担忧,短短数月后演变成 “AI 成本悖论”:token 单价下降,但模型性能提升,原本不经济的任务也可由大模型处理,任务更多样复杂,进一步推高对 token 总量的需求。OpenAI 正在推进代号为 Stargate 的基础设施扩张计划,2025 年 7 月,OpenAI 与 Oracle 宣布在美国新增 4.5GW 的数据中心能力。9 月 2 日,外媒报道 OpenAI 计划在印度新德里设立办公室,将印度(其第二大用户市场)的用户增长与本地算力配置对接,建设至少 1Gw 规模的数据中心。
“AI 成本悖论” 一方面推动英伟达和 AI 云服务商业绩增长,另一方面对降低模型算力需求的 “路由” 功能提出更高要求。Sam Altman 反复强调 “2025 年底上线的 GPU 超过 100 万片” 的目标,并将长远愿景瞄准 “一亿 GPU 量级”。这类表态侧面说明,即便推理单价下降,复杂任务与高调用量使大模型 “总账单” 不会自动降低,必须依靠路由将昂贵的推理时段 “留给更需要的人”。
从大模型的第一性原理出发,所有大模型公司追求的终极标准,是不断提升 “算力兑换智力” 的效率。在推理大模型时代,高效调度 “深度思考” 的能力,在一定程度上决定了大模型公司能否在系统和商业效率以及用户体验上领先全行业。OpenAI 的路由功能困境,不仅关乎自身发展,也为整个大模型行业在算力成本控制与效率提升方面,提供了极具价值的思考与借鉴方向 。
作者:摩根娱乐
新闻资讯 News
- 芝加哥大学停招人文学科博士:困...09-04
- 职场“闭环”能力解析09-04
- 牛市踏空比亏钱更痛苦?投资焦虑...09-04
- 5 分钟 “拍” 出动画剧集:Sho...09-04