AI 안전의 분수령이 된 날

AI 업계의 분수령이라는 평가를 받으며, Anthropic은 화요일 책임 있는 확장 정책(RSP)에 대한 대규모 개편을 발표했습니다. 창립 이래 회사의 정체성의 중심이 되어온 강제 안전장치를 제거한 것입니다. 타이밍이 놀라웠습니다. 국방부 장관 Pete Hegseth가 회사에 Claude AI 모델에 대한 무제한 군사 접근을 제공하도록 압박하고 있다는 보도가 나온 바로 그날에 발표되었습니다.

2년 이상 동안 Anthropic의 RSP는 AI 업계에서 가장 구체적인 안전 약속 중 하나였습니다. 이 정책은 명확한 한계를 설정했습니다. 회사의 모델이 특정 능력 기준에 도달했지만 적절한 안전 조치가 없다면 개발을 중단한다는 것입니다. 그 약속은 이제 사라졌으며, 경쟁 AI 환경의 현실을 더 잘 반영한다고 회사가 주장하는 '위험 보고서(Risk Reports)'와 '미래기술 안전 로드맵(Frontier Safety Roadmaps)'으로 대체되었습니다.

정책 변경의 배경

Anthropic은 변경사항을 집단행동 문제에 대한 실용적 대응이라고 설명했습니다. "2년 반이 지난 지금, 우리의 솔직한 평가는 이 변화 이론의 일부는 우리가 바라던 대로 진행되었지만 다른 부분은 그렇지 않다는 것입니다"라고 회사는 업데이트된 정책 문서에 명시했습니다. 핵심 논리는 단순합니다. 책임감 있는 개발자가 일시 중단하는 동안 경쟁사들이 앞서 나간다면, 그 결과는 신중한 행동자들이 아닌 가장 부주의한 행동자들에 의해 형성된 세상이 될 수 있다는 것입니다.

"우리가 AI 모델 학습을 중단하는 것이 실제로 누군가에게 도움이 될 것 같지 않았습니다"라고 Anthropic의 최고 과학 담당자 Jared Kaplan이 Time에 말했습니다. "AI의 빠른 발전 속에서 경쟁사들이 앞서나가는 상황에서 우리가 일방적인 약속을 하는 것이 합리적이라고 생각하지 않았습니다." 이는 기술 산업에서 친숙한 논리입니다. 책임감 있는 행동자들이 강력한 기술이 어떻게 발전하는지 형성하는 데 안전 중심의 관점을 보장하기 위해 최전선에 있어야 한다는 생각입니다.

하지만 회사의 급속한 상업적 성공과 함께 이러한 논리는 어색해 보입니다. Anthropic은 이번 달에만 30억 달러의 신규 투자를 확보했으며, 기업 가치는 3,800억 달러에 달합니다. Claude 모델은 특히 코딩 응용 분야에서 광범위한 호평을 받았습니다. 최신 버전은 회사 자신에 의해 가장 안전한 버전으로 설명되고 있습니다. 능력과 자원이 절정에 달한 바로 이 순간에 안전 약속이 약화되어야 하는 이유가 무엇인지 의문을 제기합니다.

Pentagon의 최후통첩

골칫거리는 Department of Defense의 동시다발적 압박 캠페인입니다. Axios의 보도에 따르면 국방부 장관 Hegseth는 Anthropic의 CEO Dario Amodei에게 금요일까지 군대에 Claude에 대한 무제한 접근을 제공하거나 결과에 직면할 것을 요구했습니다. 그러한 결과에는 국방생산법(Defense Production Act) 발동, 회사의 기존 국방 계약 해지, 또는 Anthropic을 공급망 위험으로 지정하는 것이 포함될 수 있습니다. 지정되면 Pentagon 계약업체들은 Claude를 사용하지 않는지 인증해야 합니다.

Claude는 현재 군대의 가장 민감한 작전에 사용되는 유일한 AI 모델로 보도되고 있습니다. "우리가 이 사람들과 계속 대화하는 유일한 이유는 우리가 그들이 필요하고 지금 당장 필요하기 때문입니다"라고 한 국방 관계자가 Axios에 말했습니다. 모델은 최근 Venezuela에서의 군사 작전 중에 사용된 것으로 보도되었으며, 이는 Amodei가 국방 파트너 Palantir와 함께 제기한 주제입니다.

Anthropic은 Pentagon을 위해 사용 정책을 조정하는 것을 제안한 것으로 알려졌지만, 모델이 미국인의 대량 감시에 사용되거나 인간의 개입 없이 발사되는 무기 시스템에 사용되지 않도록 하는 선은 그었습니다. 정부 압박에 직면하여 이러한 선이 유지될 것인지는 아직 미지수입니다.

개구리 삶기(Frog-Boiling) 우려

안전 연구원들은 다양한 반응을 표현했습니다. 비영리 단체 METR의 이사 Chris Painter는 변화를 이해할 수 있지만 잠재적으로 불길할 수 있다고 설명했습니다. 그는 투명한 위험 보고에 대한 강조를 칭찬했지만 '개구리 삶기' 효과에 대한 우려를 제기했습니다. 강제 안전 선이 유연한 지침이 될 때, 각각의 개별 양보는 합리적으로 보이지만 누적된 방향은 문제가 있다는 생각입니다.

Painter는 새로운 RSP가 Anthropic이 "능력 평가 및 위험 완화 방법이 능력의 발전 속도를 따라가지 못하기 때문에 안전 계획을 분류 모드로 전환할 필요가 있다고 생각한다"는 것을 시사한다고 지적했습니다. 그는 직설적으로 덧붙였습니다. "이것은 사회가 AI가 야기할 수 있는 잠재적 재앙적 위험에 대비하지 못했다는 더 많은 증거입니다."

Google의 진화와의 평행선은 무시하기 어렵습니다. 검색 거인은 유명하게 '악하지 말자(Don't be evil)'라는 모토로 운영했지만, 상업적 압박이 높아지면서 행동 강령에서 조용히 제거했습니다. Anthropic의 궤적이 유사한 호를 따를지는 회사가 앞으로 수주, 수개월 동안 하는 행동에 달려 있습니다. 특히 Pentagon과의 대치에서 말입니다.

다음은 무엇인가

새로운 RSP 프레임워크는 이진 중단/진행 결정을 단계적 평가 및 공개 공시로 대체합니다. 이론적으로 이것은 더 미묘한 안전 거버넌스를 제공합니다. 실제로, 비평가들은 그것이 중요한 순간에 개발을 일시 중단하도록 강제했을 수 있는 유일한 메커니즘을 제거했다고 우려합니다.

더 광범위한 AI 산업에 대해 메시지는 명확합니다. 안전에 대한 약속이 가장 목소리 높은 회사들도 기업가치가 치솟고 경쟁이 심화되며 정부가 요구할 때 그 약속을 유지하기 어렵다는 것을 알고 있습니다. AI 개발이 느려질지 여부는 문제가 아닙니다. 명확히 느려지지 않을 것입니다. 문제는 다시 구축되는 보호장치가 중요할 만큼 충분히 견고한지입니다.

이 기사는 Engadget의 보도를 바탕으로 합니다. 원문을 읽으세요.