Anthropic中端工作马的重大飞跃

Anthropic发布了Claude Sonnet 4.6,这是其应用最广泛的模型层级的最新更新,在编码能力、指令跟随和计算机使用方面带来实质性改进,同时将上下文窗口翻倍至百万令牌。该版本遵循Anthropic大约四个月的更新节奏,比公司在2026年2月5日推出旗舰Opus 4.6模型晚两周。

Sonnet 4.6立即成为Anthropic Claude平台免费和专业级用户的默认模型,意味着数百万用户将体验这些改进而无需更改任何设置。对于在API上构建应用的开发者来说,该模型代表了能力与成本比的显著升级,这使得Sonnet层级成为生产应用的最受欢迎选择。

基准性能提高了标准

Sonnet 4.6在多个评估类别中的成绩令人印象深刻。在SWE-Bench上——用于评估AI模型解决现实软件工程问题能力的行业标准基准——Sonnet 4.6在其类别的模型中创造了记录成绩。该基准通过流行开源项目中的实际GitHub问题测试模型,要求它们理解复杂代码库、识别错误的根本原因并生成正确的修复。这里的强劲表现直接转化为开发者使用AI编码助手的现实用处。

在OS World上——评估模型通过导航操作系统、使用应用程序和通过屏幕交互完成多步骤任务来与计算机界面交互的能力——Sonnet 4.6也创造了新纪录。这个功能是Anthropic计算机使用功能的核心,它允许Claude代表用户控制桌面应用程序和网络浏览器。改进的成绩表明更可靠和更强大的自主计算机交互。

也许最引人注目的基准结果是ARC-AGI-2,这是一项专门设计来测量被认为是通用智能标志的推理能力的测试。Sonnet 4.6在此评估中获得60.4%的成绩,超越了竞争AI实验室的大多数可比模型。该模型仅次于Anthropic自己的Opus 4.6、Google的Gemini 3 Deep Think和OpenAI的GPT 5.2的精细变体。在为测试AI推理边界而设计的基准上得分超过60%对于中端模型来说是一个有意义的里程碑。

百万令牌上下文窗口

Sonnet上下文窗口从50万令牌翻倍至百万令牌,解决了开发者和企业用户最常请求的功能之一。百万令牌上下文窗口可以在单个对话中容纳整个代码库、冗长的法律合同、综合研究论文集合或详细的技术文档。

对于开发者来说,这意味着能够将整个项目的源代码加载到单个Claude会话中,并提出问题或请求考虑完整代码库的修改。开发者无需提供单个文件并希望模型推断更广泛的架构,现在可以呈现完整图景,并收到根据其项目完整上下文告知的响应。

企业用户也将获益匪浅。法律团队可以加载整个合同套件进行分析。研究机构可以同时处理数十篇论文进行文献审查和综合。财务分析师可以输入全面的季度申报文件,并获得考虑披露信息完整范围的分析,而不是逐个处理文件。

扩展的上下文窗口以测试版提供,表明Anthropic仍在为很长的上下文输入优化体验。延迟和准确性等性能特征在上下文窗口的极端情况下将是观看该功能成熟的重要指标。

编码实践中的改进

虽然基准提供了有用的比较数据,但使用Sonnet 4.6进行编码任务的实际体验是改进最重要的地方。Anthropic特别强调编码是增强的主要领域,SWE-Bench成绩用硬数据支持了这一声称。

指令跟随的改进与编码实用性密切相关。精确跟随复杂、多步骤指令的模型对软件开发工作流来说非常有用,其中单个误解的需求可能导致数小时的调试。更好的指令跟随意味着开发者可以提供详细的规范,并对生成的代码与其意图相匹配有更大的信心。

计算机使用改进进一步扩展了模型在开发背景中的实用性。自动化测试、部署工作流和交互式调试会话都受益于能更可靠地导航界面、点击正确按钮和准确解释屏幕内容的模型。

竞争定位

Sonnet 4.6的发布进入了中端AI模型日益竞争激烈的市场。OpenAI的GPT系列、Google的Gemini阵容和Meta的开源Llama模型都争夺相同的开发者和企业受众。AI模型市场已经超越了争夺最强前沿模型的简单竞赛。中端层级——成本效率、可靠性和速度与原始能力同样重要——已成为生产采用的主要战场。

Anthropic快速更新其Sonnet层级的策略,将其保持在能力前沿附近,同时维持开发者生产工作负载所需的较低成本和更快响应时间,在这一竞争中为公司提供了很好的定位。通过将Sonnet 4.6设为所有用户的默认选择,Anthropic确保其最知名和最广泛使用的模型始终代表公司的最新能力。

随着预期在未来几周内推出更新的Haiku模型,Anthropic似乎致力于以一致的节奏刷新其整个模型阵容。这个定期更新周期让开发者有信心他们正在构建的平台将继续改进,减少了可能推动他们转向竞争对手的切换风险。

接下来会发生什么

Opus 4.6和Sonnet 4.6的快速连续发布表明Anthropic以优先将改进的能力尽快交付到用户手中的步伐运营。预期的Haiku更新将完成所有三个层级的刷新周期,为整个Claude平台提供同步的代际飞跃。

对于更广泛的AI行业,Sonnet 4.6在ARC-AGI-2和SWE-Bench上的基准性能表明中端和前沿模型之间的能力差距继续缩小。几个月前仅限于最昂贵、最慢模型的功能和性能水平现在以更快、更便宜的替代品提供。该轨迹对所有使用AI工具的人都有益处,推动了日常应用中实用和可负担的边界。

本文基于TechCrunch的报道。阅读原始文章