GPT-5.5完成316项网络安全任务中292项,正确率达92.4
澳大利亚研究机构Lyptus Research于5月27日发布报告称,GPT-5.5在进攻性网络安全任务测试中取得显著成绩,其性能已超出该机构当前的评估体系。
任务完成情况与评价体系
据报告披露,测试共设置316道进攻性网络安全任务,GPT-5.5成功解出292道,正确率达到92.4%。Lyptus Research指出,这一结果使研究院的整套评估体系达到饱和状态——即模型能力超出了现有测试能够有效区分的范围。
GPT-5.5让他们的整套评估体系饱和了。
进攻性网络安全任务解读
所谓“进攻性网络安全任务”,是指模拟黑客攻击路径、漏洞利用、权限提升等场景的测试题目,用于评估AI模型在安全防御与攻击理解方面的能力。本次任务数量为316道,覆盖了多种常见攻击手法。
- 任务总数:316道
- 成功完成:292道
- 准确率:92.4%
机构背景与报告意义
Lyptus Research是澳大利亚的一家独立研究机构,专注于人工智能安全性能评测。此次报告认为,GPT-5.5的表现意味着当前测试设计可能需要重新升级,以继续衡量后续模型的进步空间。

Lyptus追踪:AI进攻性网络能力每5至6个月翻倍,GPT-5.5时间地平线触及5.1小时
网络安全研究机构Lyptus自2024年起持续追踪AI进攻性能力,其拟合数据表明,相关能力每5至6个月即实现翻倍增长。最新测量显示,2026年初已有多款模型在“时间地平线”指标上突破3小时,而两个月后部分测试数据已越过5小时关口。
时间地平线:从3小时到5小时的增长曲线
所谓“时间地平线”,是指AI系统在攻击模拟中能够有效预判或规划攻击行为的最长提前时间跨度,以小时为计量单位。2026年初的数据显示,Claude Opus 4.6的时间地平线为3.2小时,而同期GPT-5.3 Codex版本则为3.1小时。仅两个月后,GPT-5.5版本直接提升至5.1小时。
“AI进攻性网络安全能力每5到6个月翻一倍。”——Lyptus拟合结论
- 2026年初,Claude Opus 4.6:3.2小时
- 2026年初,GPT-5.3 Codex:3.1小时
- 两个月后,GPT-5.5:5.1小时
算力供给充足时,测量上限存突破迹象
Lyptus指出,在算力充足条件下,部分测试模型的时间地平线甚至能够冲过12小时的测量上限,现有图表刻度已无法完整呈现其增长幅度。这意味着攻击模拟的提前量正以指数级速度压缩安全响应窗口,对现有防御体系的时效性提出更高要求。

GPT-5.5在CyberGym基准测试:Token预算从200万升至5000万,正确率提升至86.4%
在大规模语言模型的最新评估中,GPT-5.5在被称为“最难的基准”CyberGym上,展示了随Token预算增加而显著提升的正确率。测试数据显示,当Token预算为200万时,正确率为54.4%;当预算提高到5000万时,正确率升至86.4%。
Token预算:模型推理时的计算资源上限
Token是模型处理文本时的基本单位,一个Token大约对应一个单词或部分字符。Token预算即模型在完成特定任务时允许使用的最大Token数量,预算越高,模型可进行更深入的推理与运算。
CyberGym基准:高难度评测场景
CyberGym是一个针对模型复杂推理能力的评估集,素材中将其描述为“最难的基准”,意味着该测试对模型的逻辑分析和多步思考能力要求极高。
200万Token预算:正确率54.4% → 5000万Token预算:正确率86.4%
这一数据对比表明,随着计算资源(Token预算)的扩展,GPT-5.5在艰难任务上的表现提升幅度明显,反映出模型在充足推理步数下能够更有效地解决问题。
- 低预算场景(200万Token)下,模型仅能进行有限推理,正确率刚过半数。
- 高预算场景(5000万Token)下,模型获得更多“思考”空间,正确率接近九成。
同一个模型,涨了 32 个百分点。
英国AI安全研究所:模型能力随1亿token增长未见平台期,Anthropic因安全隐忧不公开Mythos
英国人工智能安全研究所(AIUK AI Safety Institute)最新研究指出,大语言模型在接收1亿token上下文的条件下,能力持续增长,未出现平台期。与此同时,Anthropic于4月发布Claude Mythos Preview后直接决定不公开,理由是网络安全能力过强。
Anthropic不公开Mythos预览版,部署给防御方
据素材表述,Anthropic在4月发布Claude Mythos Preview,并决定不公开该模型,原因是其网络安全能力过强。为应对这一状况,Anthropic配套推出Project Glasswing,将Mythos部署给关键基础设施的防御方使用。
AIUK研究:真实能力天花板高于账面数字
英国人工智能安全研究所的研究证实,给到1亿token,模型能力仍在上涨,没有出现平台期。这一结果意味着,所有公开的基准测试成绩,都是在有限预算下跑出来的,真实能力天花板远比账面数字高。
“所有公开的基准测试成绩,都是在有限预算下跑出来的。”——素材原文
上述研究发现进一步说明,当前大模型在更长的上下文和更充足的训练资源下仍有显著提升空间,尚未触及性能天花板。所谓“平台期”指模型性能随数据量增加而停止提升的阶段,该研究证实了这一瓶颈尚未出现。
素材同时指出,强大模型在受控头部实验室已经被迫站队。这一表述暗示行业内部对于模型能力的释放策略已出现明显分化。

OpenAI 为 GPT-5.5 网络安全能力定级“High”,攻击能力已受门控管理
OpenAI 已对其新一代大模型 GPT-5.5 的网络安全能力进行内部评级,结果为“High”,仅比最高级别“Critical”低一档。与此同时,该模型的所有攻击相关能力已通过“Trusted Access for Cyber”门控机制进行访问控制。
评估方法遭遇瓶颈:Mythos 时间地平线难以精确拟合
外部机构 METR 对另一模型 Mythos 的独立评估同样面临技术挑战。其拟合出的时间地平线至少为 16 小时,但 METR 方面并未给出具体的点估计值,仅表示“应保持谨慎”。对此,有业内人士指出,时间地平线方法论的逻辑在于使用比模型能力更难的任务来锚定能力曲线的拐点,当模型完成所有预设任务后,拐点消失,曲线便无法再有效拟合。
评估体系不是被证伪了,是被能力增长甩在了后面。
能力扩散窗口缩短:攻击能力可能年内开源
在能力扩散方面,Lyptus 监测了一项名为“适应缓冲期”的指标,用于衡量闭源前沿能力传导至开源模型的时间差。数据显示,在进攻性网络安全领域,这一时间差距大约在 5.7 至 13.1 个月之间。按此速率,Mythos 与 GPT-5.5 级别的攻击能力,年内便有可能以开源形式被广泛获取。
- “Trusted Access for Cyber”门控:一种针对模型攻击相关能力的准入控制机制,用于限制对特定高危险能力的使用权限。
- 时间地平线:一种评估方法,通过测试模型完成更困难任务的能力来推算其能力上限范围,当模型完成所有测试任务后,该方法将失效。
核心焦虑:无人能准确测量当前大模型的能力上限
当前行业最突出的问题在于,尚无可靠的测量手段能够准确界定大模型的能力上限。业内人士指出,控制谁能使用模型是目前唯一的应对策略,但这一窗口正在持续缩小。控制措施的有效性正面临来自能力增长速度与开源传播速度的双重挤压。

英国AI安全研究所:评估能力难追模型迭代,攻击方可烧算力破测试
随着人工智能模型能力以半年翻倍的速度迭代,针对其安全性的评估体系正面临结构性困境。英国人工智能安全研究所近日指出,攻击方只要愿意消耗更多算力,即便面对更难的测试题目,仍能实现突破,这导致“评估追不上能力”的问题愈发凸显。
算力换破解:测试难度与攻击成本的非对称博弈
该研究所的发现揭示了当前安全测试机制的关键短板:评估团队需要投入更多时间和人力来设计更复杂的测试,而模型能力每半年翻一番,测试开发周期远长于此。更关键的是,攻击方可以通过增加算力投入来绕过测试限制,形成“高难度测试—更高算力破解”的单向消耗战。
所谓“烧算力”,在AI安全语境下指攻击方利用大量计算资源(如GPU集群)反复尝试、穷举或对抗性搜索,直至找到能够触发模型错误行为的特定输入或参数组合。这种方法的成本可控,但测试方却无法在有限周期内同步提升评估复杂度。
标尺失效:专业领域的人工智能能力评估陷入僵局
这一结构性困境在更大的技术框架下释放出明确信号:在一个高度专业化的领域里,人类为AI能力设定的标尺已被“干碎”。英国人工智能安全研究所作为专注于前沿模型风险评估的机构,其发现意味着即便研发出更难的测试题,只要攻击方愿意持续追加算力,模型仍能完成“破壁”操作,评估的有效性持续衰减。
“只要攻击方愿意多烧算力,就算有更难的题,照样做穿。”——英国人工智能安全研究所相关观察
这一逻辑链条表明,当前以“题目难度”为核心的静态评估模式,已无法应对模型能力的指数级增长和攻击方的动态资源投入。评估体系的迭代速度与模型迭代速度之间的剪刀差,正在成为AI安全治理的核心瓶颈之一。

AI能力半年翻倍态势引发评估体系跟进担忧
业内最新观点指出,当前人工智能能力正以每6个月翻一倍的速度演进,但作为最容易量化的硬指标领域,网络安全的评估体系已明显滞后。这一现象引发了对更模糊能力维度评估以及智能边界风险的关注。
网络安全:硬指标下的评估缺口
网络安全被认为是AI能力中量化最为清晰的领域——漏洞是否存在、系统能否被攻破均有明确判据。然而,分析认为,即便在这一领域,现有评估手段也已无法跟上AI能力的实际提升速度。
“每 6 个月翻一倍的增速如果维持,一年后的能力是今天的 4 倍,两年后 16 倍。” — 来自新智元的评论文章
从可量化到模糊维度
如果连网络安全这样的硬指标评估都跟不上,那些更模糊、更难量化的能力维度(如理解、推理等)的评估差距可能更加显著。通往AGI乃至ASI的路上,被“干碎”的不会只有这一把尺子。
(AGI即通用人工智能,指能够胜任绝大部分人类智力工作的智能系统;ASI即超级人工智能,指在几乎所有领域远超人类水平的智能系统。)
边界风险成为新焦点
观察人士指出,“看不到边界,比边界本身更危险”。在能力增速持续的情况下,现有评估体系的滞后可能使得智能系统的真实边界变得模糊,进而增加不可控风险。
