高效 AI 的新基准
Apple 研究人员与威斯康星大学麦迪逊分校的合作研究者共同推出了一种名为 RubiCap 的训练框架,挑战了人工智能领域最顽固的假设之一:模型越大,结果就一定越好。在图像描述基准测试中,搭载 RubiCap 的 70 亿参数模型持续优于规模大十倍的竞争系统,在某些情况下,甚至超过了拥有 720 亿参数的模型。
其影响远不止于单一基准。更小但更强大的模型意味着更低的算力成本、更快的推理速度、更少的能耗,以及将强大的 AI 功能直接运行在设备端而非遥远数据中心的可能性。Apple 将其 Apple Intelligence 战略的很大一部分押注于私有、设备端处理,因此公司显然有战略动机尽可能从紧凑架构中榨取最高性能。
RubiCap 究竟做了什么
大多数图像描述模型会为整幅场景生成一段整体说明。RubiCap 针对的是研究者所称的 dense captioning,即为单张图像中的多个元素生成细致、区域特定的描述。这类丰富的视觉理解能力,对于训练更强大的视觉语言模型、支持精确的图像搜索,以及为视障用户提供无障碍功能都至关重要。
这项训练突破来自 RubiCap 生成学习信号的方式。该框架并不依赖昂贵的人工标注数据集或传统监督学习方法,而是采用一种强化学习策略。它使用一个强大的前沿模型,具体来说是 Gemini 2.5 Pro,来评估由较小模型生成的候选描述。评估器会找出多个候选输出中的一致点和缺口,然后制定明确的评估标准,引导较小模型产生更好的输出,而无需任何单一“正确”的真实答案。
这与大多数小模型的训练方式有明显不同。传统方法通常依赖从大模型蒸馏,或在有标注数据集上进行微调。RubiCap 则通过迭代反馈循环教模型思考描述质量,使其逐步形成具有广泛泛化能力的评估直觉。
三个模型,一个框架
Apple 以 RubiCap 之名发布了三个版本:20 亿参数模型(RubiCap-2B)、30 亿参数模型(RubiCap-3B),以及旗舰级的 70 亿参数 RubiCap-7B。在所有基准评测中,7B 版本取得了最高胜率,超越了参数规模高达 720 亿的模型。3B 版本在若干特定基准上也优于更大的竞争对手,说明即便是中等规模版本,其表现也远超同级别。
更关键的是,这些模型在测试中始终保持较低的幻觉率,而这正是图像描述系统的一个持续性失败模式,即会编造场景中并不存在的细节。密集描述要求同时关注图像的多个区域,这会放大幻觉风险,因此 RubiCap 在这一维度上的表现尤其值得注意。
效率是核心设计目标
这项研究凸显了 AI 发展中的一个更广泛趋势:从单纯依靠暴力扩展,转向架构与方法论上的精细化提升。多年来,提升 AI 的主流公式很简单,就是用更多数据训练更大的模型。RubiCap 证明,训练方法,也就是模型如何学习,而不仅仅是模型有多大,才可能成为决定性变量。
对 Apple 而言,这与其硬件和隐私约束直接契合。在现代神经处理硬件上,本地运行一个 70 亿参数模型是可行的,而运行 720 亿参数模型则不现实。能够用适合设备端运行的模型取得顶级图像描述效果,为更丰富的无障碍功能、更智能的照片整理,以及无需将敏感图像路由到云服务器的更强视觉搜索打开了大门。
这项研究也对更广泛的 AI 行业具有意义,因为训练和部署前沿模型的成本已经成为一项重大门槛。如果 RubiCap 的强化学习方法能够推广到其他模态,它可能会改变企业对模型开发的思考方式,把训练效率置于原始参数规模之上。
展望未来
Apple 尚未公布 RubiCap 的产品部署时间表。此次发布的是一篇研究论文,而非产品上线公告。但该公司过去曾发布多项 AI 研究,并最终出现在操作系统功能中,从设备端语音识别到神经机器翻译,都表明这些技术是面向实际部署而开发的。
随着 Apple Intelligence 继续扩展到 iOS、macOS 和 iPadOS,像 dense image captioning 这样的能力可能增强无障碍工具、支持上下文相关的照片搜索,并提高 AI 生成图像描述的准确性。研究演示与消费级功能之间的距离,在 Apple 通常需要两到三年的时间,如今随着公司加深应用 AI 投入,这一差距可能正在更快缩小。
本文基于 9to5Mac 的报道。阅读原文。




