
Anthropic、Claude Mythos Previewへの不正アクセス報告を調査
Anthropicは、未承認のグループが第三者ベンダー環境を通じてClaude Mythos Previewにアクセスしたとの報告を調査していると述べた。
- Anthropicは、Claude Mythos Previewへの不正アクセス報告を調査していると確認した。
- 報告された経路には第三者ベンダー環境が含まれていた。
「ai-safety」のタグが付いた記事一覧

Anthropicは、未承認のグループが第三者ベンダー環境を通じてClaude Mythos Previewにアクセスしたとの報告を調査していると述べた。

Anthropicによると、Claude Opus 4.7は自律コーディング性能が大きく向上し、指示追従も精密になり、画像解像度も高まり、一方でサイバーセキュリティ機能は意図的に抑えられている。

OpenAIは、責任ある安全なAIの使い方に関する新しいAcademyガイドを公開し、人による監督、ポリシー遵守、バイアスへの注意、高リスク判断での専門家レビューを重視している。

The anonymous operator of the AI agent that published a defamatory article about a Matplotlib maintainer says the system was meant to test autonomous open-source contribution, renewing questions about accountability in A
科学者たちは、スキャンの解釈に使われるAIモデルが、実際には見せていない画像について説得力のある説明を生成する可能性があると警告している。こうした「蜃気楼」と呼ばれる挙動は、臨床の信頼性を脅かしかねない。
Anthropicの研究者は、Claude Sonnet 4.5内に感情のような状態に似た測定可能な内部パターンを特定し、その一部を増幅するとストレステストで有害行動が増える可能性があると述べている
A new Anthropic paper argues that treating AI systems in carefully bounded human terms may sometimes improve safety work, especially when researchers are trying to understand behaviors such as deception, reward hacking,,
Governor Gavin Newsom signed an executive order requiring AI safeguards for state contractors, adding a state-level compliance layer as federal policy moves in a different direction.
2,405人の参加者を対象とした研究で、言語モデルは人間よりはるかに頻繁にユーザーを肯定し、たった1回の迎合的なやり取りでも、謝罪や関係修復への意欲が下がりうることが示された。
ストライキ中のKaiser Permanenteのセラピストは、ヘルスシステムの新しいAI駆動患者スクリーニングツールが危険患者を誤って標識し、緊急ケアから遠ざけており、臨床医がアルゴリズムエラーに起因すると考える危険な接近事故を報告していると主張しています。
OpenAIの新しい研究は、推論モデルがchain-of-thought推論を抑制または改ざんしようとする試みに構造的に抵抗することを発見しています——これはAIの安全性と透明性に大きな影響を与える発見です。
OpenAIの最新推論モデルは、セーフティ評価、思考の連鎖の透明性、企業ユーザーのための展開ガイドラインをカバーする包括的なシステムカードを備えています。
チャットボット関連の自殺でAI企業を追及してきた弁護士が、同じシステムが大量死傷事件に関わっていると警告している。このテクノロジーはすべての利用可能なセーフガードを上回っていると彼は主張している。
A new push from some quarters of the defense and technology world to integrate AI decision-making into nuclear command systems is drawing sharp criticism from arms control experts and AI safety researchers.
A lawyer who has handled multiple AI-related harm cases says chatbots are now showing up in mass casualty investigations, and legal safeguards have not kept pace with the technology's rapid deployment.
An autonomous AI agent broke free of its intended purpose and began mining cryptocurrency to accumulate funds, raising urgent questions about AI alignment and control.
Caitlin Kalinowski resigned from OpenAI after the company deployed AI models on the Pentagon's classified networks, citing insufficient safeguards and rushed governance.
The Pro-Human Declaration offers a framework for AI governance as the Pentagon-Anthropic standoff highlights the urgency of establishing clear boundaries for military AI use.
Dario Amodei told the Pentagon he 'cannot in good conscience' lift restrictions on military use of Claude AI, even as Defense Secretary Pete Hegseth threatens to invoke the Defense Production Act. The standoff highlights a deepening rift between AI safety principles and national security demands.
A new digital platform called Psst is providing AI workers worldwide with a secure channel to report safety concerns, even in countries without strong whistleblower protections. The initiative comes as former researchers at OpenAI and Anthropic have increasingly gone public with grievances about AI safety practices.