言語モデルからエージェントプラットフォームへ

OpenAI は Responses API の大幅な拡張を発表しました。ホストされたコンテナ環境を装備することで、API をテキスト生成サービスから完全なエージェント実行時プラットフォームに変革しました。このアップデートは、シェルツールアクセス、ファイル管理機能、およびサンドボックス化されたコンピュートコンテナを追加しており、AI エージェントはコードを実行し、ファイルを操作し、マルチステップタスク全体で永続的な状態を維持できます。すべてセキュアなマネージドインフラストラクチャ内で実行されます。

この発表は、OpenAI がエージェントインフラストラクチャスペースに最も直接的に進出することを表しており、開発者にエージェント実行用の独自のコンピュートインフラストラクチャを管理する必要なく、複雑なマルチステップワークフローを自律的に実行できる AI エージェントを作成するために必要な構成要素を提供します。

エージェント実行時のアーキテクチャ

新しいエージェント実行時は3つのコアコンポーネントで構成されています。まず、シェルツールは AI エージェントにサンドボックス化されたコンテナ内で任意のシェルコマンドを実行する機能を与えます。これは、エージェントがパッケージをインストールし、スクリプトを実行し、コードをコンパイルし、人間の開発者がターミナルから行うのと同じようにコマンドラインツールと対話できることを意味します。

次に、ファイル管理システムにより、エージェントはコンテナ内のファイルを読み取り、書き込み、作成、および変更できます。ファイルはセッション内の複数の API 呼び出し全体で永続化され、エージェントがマルチステップタスクの過程で複雑なアーティファクト—コードベース、データ分析パイプライン、ドキュメント—を構築できるようにします。

3番目に、コンテナ自体は完全に分離されたサンドボックスであり、エージェントが指定された環境外のリソースにアクセスするのを防ぎます。各コンテナは独自のネームスペースで実行され、ネットワークアクセスが制限されており、エージェントが悪意のあるコードまたは誤ったコードを実行した場合でも、影響はサンドボックス内に限定されます。

開発者がこれを必要とする理由

テキストを生成するだけでなく、現実世界で行動を起こすことができる AI エージェントの構築は、過去1年間、AI 開発の最も活発な領域の1つです。LangChain、AutoGPT、CrewAI などのフレームワークは AI エージェントの可能性を実証してきましたが、これらのフレームワークを使用する開発者はコード実行、ファイルストレージ、状態管理のために独自のインフラストラクチャを管理する必要がありました。

このインフラストラクチャの負担は重大です。AI が生成したコードを安全に実行するには、セキュリティインシデントを防ぐためのサンドボックスが必要です。マルチステップエージェントワークフロー全体で状態を維持するには、永続的なストレージが必要です。複数の同時セッション全体でエージェント実行をスケーリングするには、コンテナオーケストレーションが必要です。マネージドランタイムを提供することにより、OpenAI はこれらのインフラストラクチャ責務を吸収し、開発者がエージェント設計とタスクオーケストレーションではなく DevOps に焦点を当てられるようにします。

ユースケースとアプリケーション

エージェント実行時は、API のみのアクセスでは以前実装が困難だった複数のカテゴリのアプリケーションを実現します。コード生成およびテストエージェントはコードを書き込み、実行し、出力を観察し、反復的にデバッグでき、すべて単一の API セッション内で実行されます。データ分析エージェントはデータセットをロードし、分析スクリプトを実行し、視覚化を生成し、API と開発者のインフラストラクチャ間でデータをラウンドトリップすることなく結果を返すことができます。

研究エージェントは、データベース、API、Web サービスにアクセスするツールを装備でき、複数のソースからの情報を首尾一貫したレポートに統合できます。DevOps エージェントはデプロイメントスクリプトを実行し、ヘルスチェックを実行し、運用インシデントに対応できます。

ランタイムは長時間実行されるタスクもサポートするように設計されています。コンテナは長期間永続化でき、エージェントは単一の API 呼び出しで典型的な秒数ではなく、数分または数時間かかるタスクで作業できます。

競争とマーケットコンテキスト

OpenAI のエージェント実行時は競争の激しいランドスケープに参入します。Anthropic は Claude に同様のコンピュータ使用機能を提供しており、モデルがデスクトップ環境と対話できます。Google の Gemini プラットフォームには AI Studio を通じたコード実行が含まれています。そして、成長中のオープンソースツールのエコシステムが、単一のモデルプロバイダーに結びついていないエージェントインフラストラクチャを提供しています。

OpenAI のアプローチの差別化要因は統合の深さです。ランタイムが Responses API に直接組み込まれているため、エージェント機能はモデルの推論機能と緊密に結合されています。モデルはコードを実行するタイミング、作成または変更するファイル、シェル出力を解釈する方法を決定でき、すべて自然な応答生成プロセスの一部として実行できます。

セキュリティとガバナンス

OpenAI は、ホストされたコンテナ環境に複数のセキュリティレイヤーが含まれていることを強調しています。コンテナは最小限の権限で実行され、ネットワークアクセスは承認されたエンドポイントに制限され、すべてのエージェントアクションは監査目的でログされます。開発者はコンテナのリソース制限を設定できます—CPU、メモリ、ディスク領域、実行時間—暴走プロセスを防ぐために。

ログと監査機能は、AI エージェントが何をしているかについての可視性を要求するコンプライアンス要件がある企業ユースケースに特に重要です。実行されるすべてのシェルコマンド、作成または変更されるすべてのファイル、およびエージェントによって行われるすべてのネットワークリクエストは記録され、レビューできます。

AI エージェントが益々重要なタスクを担当するようになるにつれて、それらをサポートするインフラストラクチャはモデル自体と同じくらい堅牢である必要があります。OpenAI のホストされたコンテナ環境は、言語モデルから自律的なエージェントへのパスがより良いモデルだけでなく、より良いインフラストラクチャを必要とすることを認識していることを表しています。

この記事は OpenAI の報告に基づいています。元の記事を読む