真正理解语言的翻译
Google Translate 曾在其历史上的不同时期每天处理超过 1000 亿个单词,使其成为人类历史上使用最广泛的语言工具之一。然而,尽管规模庞大,用户一直指出同样的局限性:该工具翻译单词,但往往无法翻译含义。习语会被翻译成字面意思、文化参考会显得尴尬,文本的风格——正式、随意、专业、亲密——在语言转换中经常丢失。对 Google Translate 的一组新的 AI 驱动更新旨在直接解决这些限制,使用大型语言模型技术来添加统计翻译从未实现的上下文理解层。
Google 宣布的更新围绕公司称之为上下文感知翻译的内容展开——在这种模式下,Translate 不仅仅是将源文本逐字映射到目标文本,而是试图理解段落的完整含义,然后以目标语言呈现它。这涉及识别习语并将其呈现为功能等价物而非字面含义、检测源文本的正式程度并在翻译中匹配它,以及标记存在多个有意义不同含义的有效翻译的模糊段落。
技术工作原理
传统的机器翻译系统,包括 Google 自 2016 年以来使用的神经机器翻译模型,在根本上作为序列到序列的模型运作:它们从数十亿个对齐的例子中学习源语言和目标语言文本之间的统计模式,并使用这些模式逐个令牌生成翻译。这种方法产生流畅的输出,但当单词或短语的含义取决于超出即时句子范围的上下文时,存在固有的局限性。
新的上下文 AI 层的运作方式不同。在生成翻译之前,它通过大型语言模型运行源文本,该模型为段落构建语义表示——识别主题、说话者的明显意图、情感音调以及特定参考或措辞选择所隐含的文化背景。然后,该语义表示作为额外的调节信号传递给翻译层,引导输出朝向保留含义而非仅仅语法结构的翻译。
一个具体的能力是 Google 称之为具有文化适应的翻译记忆。当源文本包含特定于文化的参考——体育隐喻、政治暗示、食物参考——系统可以直接翻译并附加说明注释,或将其调整为在目标语言中具有相同文化共鸣的等价参考。用户可以选择他们喜欢的模式,直接加注释方法对于正式或教育背景更有用,文化适应方法更适合自然对话。
实际应用
这些改进最直接的影响可能出现在几个特定的用例中。跨语言的商业沟通是其中之一:专业电子邮件和文件通常带有风格信号——正式程度、尊重程度和直接程度——这些对它们如何被接收至关重要,错误地获取这些信号可能会造成具有真实后果的误解。法律和医学翻译是另一个领域,字面翻译和有意义翻译之间的区别可能至关重要。
对于语言学习者,这些更新提供了一个新的实用维度。上下文功能不仅可以简单地显示文本在另一种语言中的含义,而是可以解释为什么做出特定的翻译选择、源文本中的习语意味着什么,以及考虑了哪些替代翻译。这使 Translate 成为更有效的学习工具,不仅仅是查询服务。
竞争环境
Google 的上下文 AI 更新出现在翻译技术格局变得越来越竞争激烈的时刻。DeepL 在专业人士中建立了实质性的用户基础,他们认为其翻译的自然程度明显优于 Google 的,也一直在将大型语言模型技术集成到其产品中。Microsoft 的 Azure AI Translator 和 Amazon 的 Translate 都可以访问与推动上下文理解的相同底层 transformer 架构。而像 Claude、ChatGPT 和 Gemini 这样的通用 AI 助手越来越多地被用于翻译任务,有时为短段落产生优于专用翻译服务的输出。
Google 在这个竞争环境中的优势是规模——公司可以访问来自 Search、Gmail 及其更广泛生态系统的无与伦比的多语言文本语料库,这可以用于训练文化知识丰富的翻译模型。随着 AI 翻译领域的成熟,这一优势是否能转化为有意义的质量差异还有待观察,但上下文更新代表了 Translate 处理历来需要人类专家的那种细致、高风险翻译能力的真正进步。
本文基于 Google AI Blog 的报道。阅读原文。
Originally published on




