Thinking Machines Lab 推出实时多模态语音 AI 模型

对语音 AI 的不同押注

Thinking Machines Lab 由前 OpenAI 首席技术官 Mira Murati 创立，该公司发布了其首个模型的研究预览，并将其定位为对当下主流语音助手工作方式的直接挑战。根据公司的描述，该系统以 200 毫秒为单位并行处理音频、视频和文本，目标是让对话更像流畅的交流，而不是一连串提示与回复的序列。

这一设计决定很重要，因为大多数实时 AI 产品仍依赖分阶段流水线。在随候选材料提供的说明中，当前系统会持续接收音频，但核心模型并不会直接体验完整的实时交互流。相反，外部组件会判断说话者何时结束，将语句打包，然后才把它交给模型生成完整回复。模型在说话时，其感知可能实际上会暂停，除非它被打断。

Thinking Machines Lab 认为，这种架构存在内在限制。如果系统必须等待轮次边界，并依赖底层辅助工具来决定何时发言，那么它就会难以实现人们在自然对话中期待的行为。公司称，这包括在被要求时主动打断、在合适情况下实现同时说话，以及对视觉上下文做出实时反应。

为什么这家初创公司认为旧模式不够好

这家公司的主张不只是它做出了一个更快的模型，而是在提出一个更广泛的 AI 产品设计观点。在其看来，交互不应只是包裹在通用模型外的一层薄薄界面，而应该成为模型的原生行为。

这一论点使 Thinking Machines Lab 在 AI 市场中占据了一个有分量的战略位置。许多公司专注于让大模型在推理、编程和搜索方面更强，然后通过增加编排层把它们适配到语音场景。Thinking Machines Lab 则认为，这种方式会造就仍然显得机械的系统，即使它们听起来已经很流畅。

候选文本称，该初创公司将自己的方法与 OpenAI 的 GPT-Realtime-2 和 Google 的 Gemini Live 等产品进行了对比。其主张是，通过用一个直接处理实时音视频流的模型替换外部框架，系统可以同时提升交互质量和延迟表现。公司还表示，其方案将一个快速交互模型与一个后台推理模型配对，暗示了一种将即时对话响应与更深层计算分开的架构。

Google says it stopped a mass cyberattack after AI was used to discover a zero-day exploit

谷歌称攻击者利用 AI 发现零日漏洞并策划大规模网络攻击

谷歌威胁情报团队表示，他们发现了已知首例威胁行为者利用 AI 发现并武器化零日漏洞的案例，并称这起计划中的大规模攻击已被阻止。

Read article

这个模型据称能实现什么

来源中的实际例子很有说服力。更原生的交互模型可以支持这样的对话：用户要求助手在听起来有问题时打断，或在用户正通过屏幕或摄像头做事时做出反应。它还可以支持语音重叠，这在实时翻译等场景中会很有用。

这些例子指向语音界面演进方式的更深层变化。多年来，语音系统大多训练用户用清晰、封闭的命令来讲话。下一阶段可能取决于系统能否更像人类协作者那样处理歧义、打断、时机和并行信号。如果真是这样，语音 AI 的竞争就不会只看谁的基础模型最大，还要看谁能让交互本身显得不那么人工。

这正是 Thinking Machines Lab 想占据的市场空位。它没有把语音当作强大文本模型的附加功能，而是把交互本身当作一级问题来对待。这种 framing 很值得注意，因为它挑战了当前 AI 产品开发中的一个主导假设：通用智能的进步会自然在之后解决界面质量。

承诺、压力与下一步

这次发布仍只是研究预览，而且公司的自身状况也很重要。所提供来源提到，几位关键员工最近已经离开这家初创公司。这意味着，技术亮相发生的同时，也伴随着关于执行力、人员配置，以及公司能否把强劲的研究位置转化为持久产品和业务的问题。

即便如此，备受关注的 AI 初创公司首次模型发布，也可能在大规模部署之前就影响整个行业。如果 Thinking Machines Lab 关于延迟和交互质量的说法在更广泛的检验中站得住脚，竞争对手可能会面临压力，从架构层面重新思考语音系统设计，而不是继续在现有模型外叠加更多工具。

这还有更广泛的行业含义。长期以来，语音一直被视为 AI 最直观的界面之一，但许多用户在实际使用中仍觉得现有助手不够稳定。一个能够跨音频、视频和文本持续感知、发言并适应的系统，会让这一类别更接近长期被承诺的环境式对话计算。

就目前而言，最重要的结论较为有限，但仍然关键：这个领域最受关注的新实验室之一迈出了第一步，而且它选择把竞争重点放在交互质量本身。在一个充满模型发布的市场里，这是一种独特的主张。它能否持续成立，将取决于独立验证、产品化，以及这家初创公司是否有能力保住完成研究预览之外所需的团队。

本文基于 The Decoder 的报道。阅读原文。

谷歌让 Gemini 更深入 Android，推出新的任务处理代理

谷歌表示，面向三星 Galaxy S26 和 Google Pixel 10 首先推出的新 Gemini 功能，将帮助 Android 用户完成多步骤任务、总结网页内容、填写表单，并把零散的语音笔记整理成清晰文本。

Read article

Originally published on the-decoder.com

对语音 AI 的不同押注

为什么这家初创公司认为旧模式不够好

这个模型据称能实现什么

承诺、压力与下一步

本文基于 The Decoder 的报道。阅读原文。

Thinking Machines Lab 发布面向对话的实时多模态模型

对语音 AI 的不同押注

为什么这家初创公司认为旧模式不够好

谷歌称攻击者利用 AI 发现零日漏洞并策划大规模网络攻击

这个模型据称能实现什么

承诺、压力与下一步

谷歌让 Gemini 更深入 Android，推出新的任务处理代理

Comments (0)

Related Articles

贝恩认为企业软件中的代理式AI存在1000亿美元机会

Keep Reading

Thinking Machines Lab 发布面向对话的实时多模态模型

对语音 AI 的不同押注

为什么这家初创公司认为旧模式不够好

谷歌称攻击者利用 AI 发现零日漏洞并策划大规模网络攻击

这个模型据称能实现什么

承诺、压力与下一步

谷歌让 Gemini 更深入 Android，推出新的任务处理代理

Comments (0)

Related Articles

贝恩认为企业软件中的代理式AI存在1000亿美元机会

Keep Reading