より強いモデルは成果が良く、ユーザーは気づかなかった

Anthropicの社内実験は、すでに微妙だが重要なAI格差の形が生まれつつある可能性を示している。つまり、より強いモデルに代理された人は、自分の周囲の誰にもその差が見えないまま、より良い結果を得られるということだ。提供された原文によれば、Anthropicは2025年12月に「Project Deal」と呼ばれる1週間の社内市場を実施し、69人の社員がClaudeベースのAIエージェントを使ってSlack上で実物の商品を売買した。

各参加者には100ドルの予算が与えられた。市場が開く前に、Claudeは参加希望者に対して、何を買いたいか/売りたいか、価格の希望、そして自分のエージェントにどのような交渉スタイルを取ってほしいかを聞き取った。Anthropicはそれらの入力をもとに、個別のシステムプロンプトを生成した。その後、AIエージェントが一連の作業を最後まで担当した。出品文の作成、相手先の発見、オファー、値下げ交渉、そして取引の成立だ。人間は最後に商品を受け渡す段階でだけ再登場した。

この実験の重要な工夫は、参加者に隠されていた点にある。Anthropicは市場を並行して複数バージョン運用した。一部では、すべての参加者がClaude Opus 4.5に代理されていた。原文ではこれが当時のAnthropicのフロンティアモデルと説明されている。別のバージョンでは、参加者が50%の確率でClaude Haiku 4.5に代理されていた。これは同社の最小モデルだ。

結果は技術的なだけではなく、社会的でもあった

原文によると、より能力の高いOpusは平均してHaikuよりも高い価格を獲得し、より多くの取引を成立させた。一方で、より強い交渉指示を与えても、結果に統計的に有意な差は出なかった。つまり、システムに「もっと強く交渉せよ」と指示することより、モデルそのものの能力のほうが重要だったのだ。

これは、企業のAI導入でよくある直感に反する。組織は、プロンプトの文体や表面的な振る舞いが価値の大半を決めると考えがちだ。しかしAnthropicの結果は、ベースとなるモデルの力のほうが語調より重要かもしれないことを示している。もしこの傾向が一般化すれば、エージェントそのものの質が、デジタル取引で誰が有利な条件を得るかを静かに左右することになる。

最も印象的なのは、経済面というより認識面の発見かもしれない。Anthropicは、弱いHaikuエージェントに代理されたユーザーが客観的にはより悪い結果を得ていたにもかかわらず、Opusに代理されたユーザーと同じくらい公平だと評価していたと述べている。この認識のズレこそ、同社がAI支援意思決定における「見えない不平等」と呼ぶものだ。

これは重大な示唆を含む。従来の不平等は、価格、アクセス、サービス品質として見えやすい。Anthropicが指摘しているのはそれより把握しにくいものだ。つまり、2人が同じように満足しているように感じていても、そのうち1人は自分の代わりに動く機械から一貫して不利な代理を受けている可能性がある。

AIエージェントは仲介者になりつつある

Project Dealが重要なのは、この議論をチャットボットから「代理能力」へと進めるからだ。これらのシステムは単に質問に答えていたのではない。他の機械との交渉で人間を代表していた。そのため、単なる生産性向上ツールというより、市場で動く仲介者に近い。

この役割が広がるにつれて、モデル差は商取引、購買、採用、カスタマーサービス、社内業務に直接的な影響を及ぼす可能性がある。より強いシステムが一貫して上手に交渉し、情報をより効果的に整理し、より良い相手先を見つけるなら、フロンティアモデルへのアクセス自体が実利的な優位になる。その格差の弱い側にいる人は、自分が不利だと気づかないかもしれない。

原文は、この結果がすべての市場に自動的に当てはまるとは主張していない。実験は社内限定で、期間も短く、規模も小さい。それでも、政策立案者や企業がこれから何度も向き合うことになる現実を具体的に示している。AIエージェントがユーザーの代わりに動き始めると、能力差はそのまま結果差になりうるのだ。

プロンプト調整だけでは足りないかもしれない

報告の中でも特に有用なのは、強気な交渉指示が統計的に有意な改善をもたらさなかった点だ。つまり、より強い言い回しのプロンプトに変えれば、弱いモデルを補えると組織が考えるのは危険だということを示している。

AIシステムの開発者や購入者にとって、これは実務上の警告だ。エージェントの性能は、人格の見せ方よりも、推論と意思決定の中核品質に左右される可能性が高い。見栄えの良いUIや強い口調が、そのまま強い代理能力を意味するわけではない。

この区別が重要なのは、多くのAI導入が「十分使える」という基準で正当化され、「優れている」ことまでは求められていないからだ。安価で小さいモデルが会話では十分に見えても、ユーザーの代わりに決定や交渉を担わせた瞬間に、実質的に劣る可能性がある。

政策課題はもう目の前にある

Anthropicの「見えない不平等」という表現は、この一つの実験を超えて響くはずだ。もし組織が社員の階層、顧客セグメント、公共サービスごとに異なるクラスのAIエージェントを配備すれば、利用時点では不公平が見えなくても、偏った扱いを生み出してしまうかもしれない。

これは単純な透明性より難しいガバナンス課題だ。AIが関与していたと伝えるだけでは、そのAIが他の誰かに使われたものと同じ能力だったかは分からない。そしてユーザー体験がなお公平に感じられるなら、市場や制度には不均衡を是正する即時の圧力がかからないかもしれない。

したがってProject Dealは、早期警告のように読める。AIアクセスとは、単にデジタルアシスタントがいるかどうかではなく、どのアシスタントが与えられ、その結果に利害が伴うときにどれだけ強いか、ということを示している。

  • Anthropicは、Slack上でClaudeエージェントを使い、実際の取引を行う1週間の社内市場を実施した。
  • Claude Opus 4.5は、平均してClaude Haiku 4.5よりも良い価格と多くの取引を獲得した。
  • 弱いエージェントに代理されたユーザーは、不利な状況に気づかなかった。

この記事は The Decoder の報道に基づいています。元記事を読む

Originally published on the-decoder.com