DeepLは書かれた翻訳以上のものを狙っている

テキスト翻訳で知られるDeepLが、音声から音声への翻訳スイートと、企業や開発者向けの新しいAPIを公開した。この動きにより、同社は既存のテキストおよび文書製品から、リアルタイムの会話音声へと事業領域を拡大する。そこでは、遅延、精度、使いやすさがはるかに難しい課題になる。

提供された原文によると、この新しいスイートは、会議、モバイルやWebでの会話、そしてカスタムアプリを通じた現場作業者向けのグループディスカッションを対象としている。DeepLはまた、外部の開発者や企業が独自の実装を構築できるよう、APIも提供しており、コールセンターのようなユースケースも含まれる。

音声が見た目以上に大きな飛躍である理由

DeepLのJarek Kutylowski CEOはTechCrunchに対し、音声は何年にもわたるテキストと文書翻訳の改善の次に来る自然なステップだったと語った。しかし同社自身の説明からも、音声は単にテキストに音声を付けたものではないことが明らかだ。Kutylowski氏は、主な課題の一つは低遅延と正確な出力の両立だと述べた。このトレードオフは、この製品カテゴリ全体の核心にある。

翻訳された音声が遅すぎれば、会話は成立しない。速くても不正確なら、信頼は崩れる。したがってリアルタイム翻訳は、非常に狭い運用余地に依存している。DeepLは、技術品質が事後の文書評価ではなく、ライブのやり取りの中で即座に利用者に体感される市場に参入している。

DeepLが最初に狙う領域

提供された原文はいくつかの具体的な導入経路を示している。DeepLは早期アクセスプログラムの一環として、ZoomとMicrosoft Teams向けのアドオンを公開する。これらのツールでは、他の参加者が母語で話す間に翻訳音声を聞くことも、画面上で翻訳テキストを追うこともできる。

同社はまた、対面またはリモートの会話向けにモバイルおよびWeb製品も提供する。ワークショップや研修のようなグループ環境では、参加者はQRコードで参加できるとDeepLは説明している。この点は重要だ。なぜなら、同社の野心が役員会議や1対1の高付加価値利用に限定されていないことを示しているからだ。複数の参加者が共有の翻訳レイヤーを必要とする運用現場も狙っている。

さらにDeepLは、同社の音声技術が業界固有の用語や企業名・人名を含むカスタム語彙を学習し、適応できると述べている。専門用語で一般的な翻訳が崩れがちなビジネス環境では、この能力が決定的になる可能性がある。