什么是GPT-5.4 Thinking?
OpenAI发布了其最新的前沿推理模型GPT-5.4 Thinking,同时发布了详细的系统卡,记录了该模型的功能、安全评估和限制。该发布标志着OpenAI在开发能够通过扩展推理链处理复杂多步问题的AI系统的道路上迈出了另一步,然后才能向用户提供最终答案。
与逐个标记生成响应而没有思考的标准语言模型不同,GPT-5.4 Thinking使用思维链推理——在提交输出之前在内部解决问题。这种架构使该模型能够处理数学证明、复杂编码任务、科学推理和细致的逻辑分析,其准确性远高于早期系统。
OpenAI为所有前沿模型发布的系统卡提供了公司在部署前如何评估AI的透明视图。它涵盖安全基准、红队结果、潜在滥用风险和实施的具体缓解措施——为研究人员和企业客户提供了评估新模型适当用例所需的信息。
安全评估和红队测试结果
GPT-5.4 Thinking的安全测试遵循了OpenAI的准备框架,评估了该模型在网络安全威胁、生物和化学武器使能、放射性风险和自主资源获取方面的表现。系统卡将GPT-5.4 Thinking列为中等总体风险类别,这意味着它可以在标准安全缓解措施下进行部署,而不会触发额外的限制。
红队评估测试了该模型对越狱、间接提示注入和多步对抗性操纵的抵抗力。与前代产品相比,GPT-5.4 Thinking对许多攻击向量表现出了更强的抵抗力,尽管它对高度复杂的对抗性输入仍然不完美——这种警告适用于所有当前的AI系统,无论训练复杂度如何。
对说服力和操纵能力的评估发现,该模型的安全培训大大降低了其生成旨在欺骗或强制用户的内容的意愿。OpenAI还评估了代理设置中的行为,其中模型可能会采取具有现实世界后果的一系列行动,并发现性能在中等分类阈值的可接受安全参数范围内。
基准性能和功能
在标准推理基准上,GPT-5.4 Thinking相比前代产品表现出了显著的改进。该模型在数学和竞技编程评估中达到了最先进的结果,并在需要整合多个领域信息的科学推理任务中表现出色。物理、化学和形式逻辑领域的研究生级学术问题相对于早期模型表现出了特殊的优势。
扩展思维窗口——该模型在输出响应之前执行的内部计算量——与早期版本相比已增加。这使GPT-5.4 Thinking能够处理需要持续多步分析而不是单跳推理的问题。对于企业部署,这转化为在复杂工作流中的更可靠的性能,如财务建模、代码审查和研究综合任务。
尽管有这些改进,系统卡明确指出GPT-5.4 Thinking并非无所不能。该模型仍然可能产生幻觉事实、在足够复杂的计算中犯算术错误,并在其训练数据稀疏或模棱两可时产生过度自信的答案。OpenAI建议对高风险应用进行人工监督,并警告不要在关键系统中使用该模型作为唯一决策者。



