Поворотный день для безопасности AI

В то время как критики называют это поворотным моментом для индустрии искусственного интеллекта, Anthropic объявила о серьезных изменениях своей политики Responsible Scaling Policy во вторник, устранив жесткие меры безопасности, которые были центральной частью идентичности компании с момента ее основания. Время было показательным — объявление совпало с днем, когда стали известны сообщения о том, что министр обороны Pete Hegseth оказывает давление на компанию, чтобы она предоставила U.S. армии беспрепятственный доступ к своей модели Claude AI.

На протяжении более двух лет RSP Anthropic был одним из наиболее конкретных обязательств по безопасности в индустрии AI. Политика установила четкие красные линии: если модели компании достигли бы определенных пороговых значений возможностей без надлежащих мер безопасности на месте, разработка была бы остановлена. Это обещание теперь исчезло, заменено более гибким фреймворком "Отчетов о рисках" и "Дорожных карт безопасности границы", которые компания говорит лучше отражают реалии конкурентного ландшафта AI.

Рациональное обоснование сдвига

Anthropic представила изменения как прагматичный ответ на проблему коллективного действия. "Спустя два с половиной года наша честная оценка состоит в том, что некоторые части этой теории изменений развивались так, как мы надеялись, но другие нет," написала компания в обновленном документе политики. Основной аргумент прямолинеен: если один ответственный разработчик делает паузу, в то время как конкуренты спешат вперед, результат может быть миром, сформированным наименее осторожными игроками, а не наиболее обдуманными.

"Мы считали, что для нас было бы невозможно остановить обучение моделей AI," сказал Jared Kaplan, главный научный сотрудник Anthropic, журналу Time. "Мы действительно не чувствовали, с учетом быстрого развития AI, что имеет смысл для нас делать односторонние обязательства... если конкуренты быстро двигаются вперед." Это знакомый аргумент в технологии — идея о том, что ответственные действующие лица должны оставаться на границе, чтобы обеспечить безопасность перспективы формируют, как развивается мощная технология.

Но рассуждение сидит неловко рядом с растущим коммерческим успехом компании. Anthropic привлекла $30 миллиардов новых инвестиций только в этом месяце, что привело к оценке в $380 миллиардов. Ее модели Claude получили широкое признание, особенно для приложений кодирования. Последние версии были описаны самой компанией как ее самые безопасные — что вызывает вопрос, почему обязательства по безопасности должны быть ослаблены именно в момент, когда возможности и ресурсы находятся на пике.

Ультиматум Pentagon

Слон в комнате — это одновременная кампания давления от Министерства обороны. По сообщениям Axios, министр обороны Hegseth дал руководителю Anthropic Dario Amodei до пятницы предоставить военным неограниченный доступ к Claude или столкнуться с последствиями. Эти последствия могли бы включать вмешательство Defense Production Act, разрыв существующих контрактов компании на оборону или обозначение Anthropic как риска цепи поставок — шага, который вынудит других подрядчиков Pentagon сертифицировать, что они не используют Claude в своих рабочих процессах.

Claude, как сообщается, единственная модель AI, которая в настоящее время используется для наиболее чувствительных операций военных. "Единственная причина, по которой мы все еще разговариваем с этими людьми, это то, что нам они нужны, и они нам нужны сейчас," сказал чиновник обороны Axios. Модель, как сообщается, использовалась во время недавних военных операций в Венесуэле, вопрос, который Amodei поднял с партнером обороны Palantir.

Anthropic, как сообщается, предложила адаптировать свои политики использования для Pentagon, но провела линии против разрешения использования модели для массового наблюдения за американцами или оружейных систем, которые срабатывают без участия человека. Остается ли эти линии твердыми перед лицом давления правительства, остается открытым вопросом.

Озабоченность постепенными изменениями

Исследователи безопасности выразили целый ряд реакций. Chris Painter, директор некоммерческой организации METR, описал изменения как понятные, но потенциально зловещие. Он похвалил акцент на прозрачные отчеты о рисках, но поднял опасения по поводу эффекта "постепенного кипения" — идеи о том, что когда жесткие линии безопасности становятся гибкими рекомендациями, каждая отдельная уступка кажется разумной, в то время как кумулятивное направление беспокойно.

Painter отметил, что новый RSP предлагает, что Anthropic "считает, что ему нужно перейти в режим сортировки со своими планами безопасности, потому что методы оценки и смягчения рисков не поспевают за темпом возможностей." Он добавил резко: "Это больше свидетельств того, что общество не готово к потенциальным катастрофическим рискам, создаваемым AI."

Параллель с эволюцией Google сложно игнорировать. Компания поиска знаменито работала под девизом "Don't be evil" перед тихим удалением ее из своего кодекса поведения по мере роста коммерческого давления. То, будет ли траектория Anthropic следовать аналогичной дуге, будет зависеть от того, что компания делает в предстоящие недели и месяцы — особенно в своем тупике с Pentagon.

Что дальше

Новый фреймворк RSP заменяет бинарные решения остановка/старт градуированными оценками и публичными раскрытиями. В теории, это обеспечивает более тонкое управление безопасностью. На практике критики беспокоятся, что это удаляет единственный механизм, который мог бы вынудить паузу в разработке в критический момент.

Для более широкой индустрии AI сообщение ясно: даже компании, наиболее громко обязанные безопасности, находят, что это обязательство трудно поддерживать, так как оценки взлетают, конкуренция интенсифицируется, а правительство звонит. Вопрос не в том, замедлится ли разработка AI — она явно не замедлится. Это вопрос о том, достаточно ли сильны восстановленные ограждения, чтобы имели значение.

Эта статья основана на отчетах Engadget. Прочитайте оригинальную статью