首页 / 财经 / OpenAI于周六凌晨发布GPT5.6系列模型 仅部分受信伙伴获准入使用

OpenAI于周六凌晨发布GPT5.6系列模型 仅部分受信伙伴获准入使用

摸鱼不慌
摸鱼不慌管理员

北京时间周六凌晨,人工智能企业OpenAI正式对外公布新一代旗舰级语言大模型GPT5.6系列。该系列产品包含三种不同性能梯队的模型,旨在覆盖从高频日常任务到复杂专业场景的多样化需求。

三级模型矩阵与命名逻辑

本次发布的产品线共分为三款独立模型。旗舰级型号命名为Sol,定位为代表当前人类人工智能技术能力新巅峰的核心底座。均衡型型号名为Terra,主要面向日常办公与常规计算任务。快速且经济型型号命名为Luna,侧重于提升处理速度与降低算力成本。

三款模型命名分别对应太阳系中的天体:Sol指代太阳,Terra指代地球,Luna指代月亮。该命名体系通过天体层级直观划分了模型的计算规模与应用场景差异。

分发权限与落地现状

但由于美国政府的阻挠,目前只有获得美国政府批准的一小撮“受信任合作伙伴”能够用上这款代表人类AI能力新巅峰的大模型。

  • Sol模型承担核心算力基准测试与前沿场景探索。
  • Terra模型聚焦企业日常流程自动化与常规交互处理。
  • Luna模型负责高频低延迟请求,降低单次调用成本。

基于材料所述的分级发布与权限限制规则,GPT5.6系列的实际落地呈现高度定向化特征。模型性能梯队与使用资格的绑定,意味着该技术短期内仅能在受限的合作框架内进行技术验证,尚未具备面向广泛市场公开部署的条件。

OpenAI于周六凌晨发布GPT5.6系列模型 仅部分受信伙伴获准入使用  第1张

OpenAI发布GPT5.6系列模型 TerminalBench 2.1编程测试数据披露

OpenAI公开其最新模型矩阵的测试数据与架构特性。在面向编程工作流的TerminalBench 2.1检验中,GPT5.6 Sol的性能表现略优于Anthropic的Mythos预览模型。

推理强度与任务调度机制

该测试主要评估代码生成与调试流程的完成情况。模型矩阵的底层设计针对不同算力需求进行分级。GPT5.6 Sol引入更高等级的推理强度,使模型在解决问题时拥有更长的深入推理时间窗口。

针对高复杂度任务,同步推出GPT5.6 Sol Ultra模式。该模式通过调度子智能体集群来加速复杂任务的执行流程,提升整体处理效率。

在TerminalBench 2.1测试中,GPT5.6 Sol的表现略好于主要竞争对手Anthropic的Mythos预览模型。同时Terra的表现与Mythos模型的首个公开发布版本Fable 5持平。主打轻量化的Luna模型,也能比竞品Anthropic目前仍能公开提供服务的旗舰模型Opus 4.8强上一些。

产品线定位与性能对标

  • GPT5.6 Sol:主打高阶推理与代码工作流检验,性能数据超越竞品Mythos预览版。
  • Terra:性能表现与Mythos首个公开版本Fable 5保持持平。
  • Luna:定位为轻量化模型,性能指标优于Anthropic当前公开旗舰Opus 4.8。
  • GPT5.6 Sol Ultra:基于子智能体架构,用于加速复杂任务处理。

基于现有测试数据与功能划分,该系列模型在代码处理与任务调度环节形成完整的产品梯队,覆盖不同业务场景的算力需求。

OpenAI于周六凌晨发布GPT5.6系列模型 仅部分受信伙伴获准入使用  第2张

OpenAI公布Sol等模型定价 ExploitBench测试显示输出词元消耗降低

OpenAI同步公开旗下模型性能测试数据与分级定价方案。在ExploitBench网络安全基准测试中,Sol模型与Mythos预览版模型表现持平,且Sol仅使用三分之一的输出词元。

性能测试与资源消耗

ExploitBench专项测试结果显示,Sol在能力表现上达到Mythos预览版水平。该模型在维持同等输出效果的前提下,将输出词元使用量压缩至三分之一,显著降低调用成本。

分级定价策略

  • 旗舰模型Sol:输入端每百万词元5美元,输出端每百万词元30美元。
  • 均衡模型Terra:输入与输出端分别定价为每百万词元2.5美元与15美元。
  • 轻量模型Luna:输入与输出端分别定价为每百万词元1美元与6美元。

计费逻辑与市场影响

模型定价采用输入与输出分离核算机制。输入词元代表提交给模型的处理数据量,输出词元代表模型生成并返回的文本数据量。Sol在ExploitBench测试中实现同等效果下输出词元用量锐减,直接体现为服务费用的下降。

输出词元用量的缩减为应用端提供了更优的成本控制路径,有助于降低企业接入大模型服务的门槛。
OpenAI于周六凌晨发布GPT5.6系列模型 仅部分受信伙伴获准入使用  第3张

OpenAI与Anthropic多款前沿模型因美国政府指令暂停公众开放

受美国政府监管要求影响,GPT-5.6以及Anthropic的Fable 5、Mythos模型均暂时限制向广泛公众开放。资本市场的关注焦点正转向技术迭代节奏与合规路径的重构。

监管指令触发访问限制

大约在两周前,Anthropic上线Fable 5仅3天便火速下线,原因是收到美国政府出口管制指令,禁止一切外国国民(含Anthropic外籍员工)访问Fable 5与Mythos模型。

据报道,OpenAI掌门山姆·奥尔特曼在周四的内部员工备忘录中提及,美国政府将在此次GPT5.6预览期间“逐个批准客户访问申请”。

企业回应与合规框架构建

针对此次调整,OpenAI在周五的公告中明确了立场与后续动作。公司同时表示,目前的“短期措施”,是在未来几周实现更广泛开放的最有力路径。OpenAI未来将与政府合作,制定网络安全行政令框架,以及可重复执行的模型发布流程。

OpenAI指出,当前的访问审批机制并非长期常态,该流程客观上限制了用户、开发者、企业及全球合作伙伴获取前沿工具的权利。企业计划将重点转向技术防御体系的完善。

GPT-5.6被训练为会拒绝提供被禁止的网络安全协助。即便这一层防护被恶意行为者通过不断尝试提示词绕过,实时网络安全和生物学滥用分类器也会在模型生成输出的过程中进行评估,并对潜在恶意行为进行拦截。

技术防御机制与风险评估

  • 提示词绕过拦截:模型内置多层防护,若遭遇恶意提示词试探,系统将启动实时分类器进行输出评估与阻断。
  • 账户级审查触发:被系统标记的异常活动,将直接触发针对相关对话及风险信号的账户级别审查。
  • 风险门槛界定:GPT5.6模型尚未触及OpenAI所界定的“关键网络安全风险”门槛,该门槛被定义为带来“前所未有的通向严重危害的新途径”。

上述防御架构的部署,直接反映了当前大模型商业化落地过程中,技术迭代速度与网络安全合规要求之间的平衡逻辑。前沿人工智能产品的高频访问受限,客观上加速了企业对内生安全能力的投入,也为后续监管框架的明确提供了实践样本。

(文章来源:财联社)