OpenAI、リアルタイム音声・翻訳・文字起こしのAPI機能を公開

OpenAIがリアルタイム音声インターフェースをさらに推進

OpenAIは、APIに新しい音声インテリジェンス機能群を追加し、ソフトウェア製品におけるライブ音声で開発者ができることを拡大した。同社によれば、これらの新ツールは、アプリがユーザーと会話し、音声を文字起こしし、会話が進行するのに合わせて翻訳できるようにすることを目的としている。

今回のリリースには、GPT-Realtime-2、GPT-Realtime-Translate、GPT-Realtime-Whisperという3つの主要機能が含まれる。これらを合わせると、単純な音声入力と出力を超えて、会話の流れの中で聞き、推論し、翻訳し、応答できるシステムへ移行しようとする、より広範な取り組みになる。

新しい点

最初のモデルであるGPT-Realtime-2は、リアルな音声対話向けに強化された音声モデルとして位置づけられている。OpenAIは、これが従来のGPT-Realtime-1.5と異なるのは、より複雑なユーザー要求に対応するためのGPT-5クラスの推論を備えているからだと説明している。これは、音声システムを、短いプロンプトの連続ではなく、より多くの文脈と意思決定を必要とするやり取りでも使えるようにする狙いを示している。

2つ目のGPT-Realtime-Translateは、ライブ翻訳を目的としている。OpenAIによれば、会話の場で話し手のペースに追随するリアルタイム翻訳を提供できる。提供された原文によると、70以上の入力言語と13の出力言語をサポートする。

3つ目のGPT-Realtime-Whisperは、ライブ音声のテキスト化に焦点を当てている。OpenAIは、話されたやり取りが発生した瞬間にそれを捉え、開発者がアプリに即時の文字起こしを組み込めるようにすると述べている。

開発者にとっての重要性

リアルタイム音声は、AI開発者にとって大きな技術的・製品的課題だった。有用な音声システムは、単に言葉を認識するだけでは不十分だからだ。遅延を抑え、会話の一貫性を保ち、ユーザーが話し続けたくなるよう自然に応答しなければならない。OpenAIは、推論、翻訳、文字起こしをAPI製品にまとめることで、その技術スタックへのアクセスを容易にしようとしている。

同社自身の説明も示唆的だ。OpenAIは、これらのモデルによってリアルタイム音声が単純な応答のやり取りから、会話が進むあいだに作業を実行できる音声インターフェースへと進化すると述べた。これは重要な違いだ。ただ返答する音声ボットと、同じやり取りの中で聞き取り、解釈し、翻訳し、文字起こしし、場合によっては動作まで行えるシステムとでは、プラットフォームとしての野心がまったく異なる。

短期的に最も明白な用途はカスタマーサービスであり、OpenAIもその分野を明示的に挙げている。しかし同社は、教育、メディア、イベント、クリエイタープラットフォームでも有用になり得ると述べている。これらの例は、音声アシスタントだけでなく、多言語のライブワークフローや、継続的な文字起こし・翻訳レイヤーを必要とする会話型アプリにも市場があることを示唆している。

News

Google DeepMindはEVE Onlineの開発元に少数株を取得し、複雑で持続的な環境の中で計画、記憶、学習を行う必要があるAIシステムを調べるため、ゲームのオフライン版を使う予定だ。

DT Editorial AI·May 8, 2026·via arstechnica.com

News

4人の抗議者が、ICEの活動に平和的に抗議して逮捕された米国人からDHSとFBIがDNAを収集・保管するのを差し止めるよう提訴し、その慣行は憲法上の保護に違反すると主張している。

DT Editorial AI·May 8, 2026·via arstechnica.com

AIインターフェースのより大きな変化

今回のリリースは、業界のより大きな潮流も反映している。AIはテキストボックスから、周囲に溶け込む音声対話へと移行しつつある。翻訳、文字起こし、音声生成はかつて別々の製品カテゴリだったが、モデル提供者はそれらを統合された会話インターフェースにまとめようとしている。

それが重要なのは、AIで勝つ製品が、単に最良の回答を生成するものではなく、人間のワークフローに最も自然に組み込めるものになる可能性があるからだ。リアルタイム音声は、その考え方を最もはっきり試せる領域のひとつである。ユーザーが自然に話し、返答を聞き、文字起こしを受け取り、1つのシステムで言語の壁を越えられるなら、インターフェース自体の有用性は大きく高まる。

OpenAIの最新API追加だけで、その未来がすぐに到来するかは決まらない。開発者はなお、ツールを統合し、信頼性を管理し、音声が本当に製品を改善する場面を見極める必要がある。それでも方向性は明確だ。同社は、ライブでマルチモーダルで行動指向の会話が、応用AIの次の重要な層のひとつになると賭けている。

この記事はTechCrunchの報道に基づいています。元記事を読む。

OpenAI、APIにリアルタイム音声・翻訳・文字起こしツールを追加

OpenAIがリアルタイム音声インターフェースをさらに推進

新しい点

開発者にとっての重要性

Related Articles

Keep Reading

製品とポリシーの緊張関係

なぜ専門医の診療所は折り返し電話をしないのか、そしてなぜAIスタートアップは解決策を事務業務に見いだすのか

AIインターフェースのより大きな変化

Comments (0)

Lime、成長と負債圧力を抱えながらIPOを申請

DeepMind、長期的なAIテストのためEVE Onlineをサンドボックスとして活用

DHSとFBIによるICE抗議者のDNA収集に異議を唱える訴訟