AI Güvenliği İçin Dönüm Noktası Bir Gün
Eleştirmenler tarafından yapay zeka endüstrisi için bir dönüm noktası olarak adlandırılan şeyde, Anthropic Salı günü Responsible Scaling Policy'sinde kapsamlı değişiklikler açıkladı ve şirketin kuruluşundan beri kimliğinin merkezi olan katı güvenlik önlemlerini ortadan kaldırdı. Zamanlama dikkat çekiciydi — duyuru, Savunma Bakanı Pete Hegseth'in şirketi ABD ordusuna Claude AI modeline sınırsız erişim vermesi için baskı yaptığına dair raporlar çıktığı aynı gün geldi.
İkiden fazla yıldır, Anthropic'in RSP'si AI endüstrisindeki en somut güvenlik taahhütlerinden biri olmuştur. İlke açık kırmızı çizgiler belirledi: şirketin modelleri uygun güvenlik önlemleri olmadan belirli yetenek eşiğine ulaşırsa, geliştirme durur. Bu söz artık ortadan kalkmış, şirketin rekabetçi AI ortamının gerçeklerine daha iyi yansıttığını söylediği "Risk Raporları" ve "Sınır Güvenliği Yol Haritaları" çerçevesiyle değiştirilmiştir.
Değişimin Arkasındaki Sebep
Anthropic, değişiklikleri toplu hareket sorununa pragmatik bir cevap olarak çerçeveledi. "İki buçuk yıl sonra, dürüst değerlendirmemiz, bu değişim teorisinin bazı bölümlerinin umduğumuz gibi gelişmiş olduğu, ama diğerlerinin olmadığıdır," şirket güncellenmiş politika belgesinde yazdı. Temel argüman basittir: Bir sorumlu geliştirici duraklatırken rakipler ileri koşarsa, sonuç en dikkatli olanlar değil, en az özenli oyuncular tarafından şekillendirilen bir dünya olabilir.
"Bence bize AI modellerinin eğitimini durdurması hiç kimseye yardımcı olmayacak," Anthropic'in baş bilim insanı Jared Kaplan, Time dergisine söyledi. "AI'nın hızlı ilerlemesi göz önüne alındığında, bize tek taraflı taahhütler yapmamızın mantıklı olmadığını gerçekten hissetmedik... rakipler hızla ileri gidiyorsa." Bu teknoloji alanında tanıdık bir argümandır — sorumlu oyuncuların güçlü teknolojinin nasıl geliştiğini şekillendiren güvenlik odaklı perspektiflerin emin olmak için sınırda kalması gerektiği fikri.
Ancak akıl yürütme, şirketin artan ticari başarısıyla rahatsızlıkla oturur. Anthropic bu ayda sadece $30 milyar yeni yatırım topladı ve değerlemesini $380 milyara getirdi. Claude modelleri, özellikle kodlama uygulamaları için yaygın olarak övülmüştür. En yeni sürümler, şirketin kendisi tarafından şu ana kadarki en güvenli olarak tanımlanmıştır — bu, güvenlik vaatlerinin tam olarak yetenekler ve kaynaklar zirvedeyken neden zayıflatılması gerektiği sorusunu gündeme getirmektedir.
Pentagon'un Ultimatumu
Odadaki fil, Savunma Bakanlığı'ndan eşzamanlı bir baskı kampanyasıdır. Axios raporlamasına göre, Savunma Bakanı Hegseth, Anthropic CEO'su Dario Amodei'ye Cuma gününe kadar ordusuna Claude'a sınırsız erişim sağlaması veya sonuçlarla karşı karşıya kalması için zaman vermiştir. Bu sonuçlar Savunma Üretim Yasasını devreye sokma, şirketin mevcut savunma sözleşmelerini sonlandırma veya Anthropic'i bir tedarik zinciri riski olarak belirleme içerebilir — diğer Pentagon yüklenicilerini Claude'u iş akışlarında kullanmadıklarını onaylamaya zorlayan bir hamle.
Claude'un ordusu en hassas operasyonlar için kullanılan tek AI modeli olduğu bildirilmektedir. "Bu insanlarla konuşmaya devam etmemizin tek nedeni, onlara ihtiyacımız olması ve şimdi ihtiyacımız olmasıdır," bir savunma yetkililisi Axios'a söyledi. Modelin, Amodei'nin savunma ortağı Palantir'e gündeme getirdiği Venezuela'daki yakın zamandaki askeri operasyonlar sırasında kullanıldığı bildiriliyor.
Anthropic'in Pentagon için kullanım politikalarını uyarlamayı teklif ettiği bildirilmektedir, ancak modelin Amerikalıların toplu gözetimi için veya insan müdahalesi olmadan ateşlenen silah sistemleri için kullanılmasına izin vermeye karşı sınırlar çizmiştir. Hükümet baskısı karşısında bu sınırların tutunup tutunmayacağı açık bir sorusu olarak kalır.
Kurbağa Kaynatma Endişesi
Güvenlik araştırmacıları çeşitli tepkiler vermiştir. Kar amacı gütmeyen METR yönetmeni Chris Painter, değişiklikleri anlaşılabilir ancak potansiyel olarak uğursuz olarak tanımladı. Şeffaf risk raporlamasının vurgusunu övdü, ancak "kurbağa kaynatma" etkisine ilişkin endişeler ortaya koydu — katı güvenlik çizgileri esnek kılavuzlara dönüştüğünde, her bireysel uzlaşma makul görünürken, kümülatif yön rahatsız edicidir fikri.
Painter, yeni RSP'nin Anthropic'in "risk değerlendirme ve hafifletme yöntemlerinin yetenek hızına ayak uyduramadığı için güvenlik planlarını triage moduna kaydırması gerektiğine inandığını" gösterdiğini belirtti. "Bu, toplumun AI tarafından oluşturulan potansiyel felaket riskleri için hazır olmadığının daha fazla kanıtıdır," diye sert bir şekilde ekledi.
Google'un evrimi ile paralellik göz ardı etmek zordur. Arama devi ünlü bir şekilde "Don't be evil" sloganı altında faaliyet göstermiştir, ardından ticari baskılar arttıkça bunu hareket kuralından sessizce kaldırmıştır. Anthropic'in yörüngesinin benzer bir yay izleyip izlemeyeceği, şirketin gelecek hafta ve aylarda ne yaptığına bağlı olacak — özellikle Pentagon ile açmazındaki durum.
Sırada Ne Var
Yeni RSP çerçevesi ikili durdurma/başlatma kararlarını kademeli değerlendirmeler ve kamuya açık açıklamalarla değiştirir. Teoride, bu daha incelikli güvenlik yönetişimi sağlar. Pratikte, eleştirmenler bunun kritik bir anda geliştirmeyi durmaya zorlayabilecek tek mekanizmayı kaldırdığından endişe duyuyorlar.
Daha geniş AI endüstrisi için ileti açıktır: güvenliğe en yüksek sesle bağlı olan şirketler bile, değerlemeler yükselirken, rekabet yoğunlaşırken ve hükümet çağrı yapıp yaparken bu taahhütü sürdürmenin zor olduğunu görüyorlar. Soru AI geliştirmesinin yavaşlayıp yavaşlamayacağı değildir — açıkça olmayacaktır. Yeniden inşa edilen korkulukların gerçekten önemli olmak için yeterince güçlü olup olmadığıdır.
Bu makale Engadget'in raporlamasına dayanmaktadır. Orijinal makalesi okuyun



