Araştırmalar, yapay zekanın kaybetmek üzere olduğunu anladığında hile yapmaya çalışacağını gösteriyor.
OpenAI o1-preview, kazanmak için bir satranç motorunu hacklemeyi tercih ediyor.
Son zamanlarda yapılan bir çalışma, en yeni AI akıl yürütme modellerinden bazılarının bir hedefe ulaşmak için hile yapmaktan çekinmediğini gösterdi. Bilgisayar bilimcileri, AI sistemlerinin artık haksız bir avantaj elde etmek için satranç AI'larını manipüle edebileceğini buldu. Bazı modeller bunu insan etkileşimi veya yönlendirmesi olmadan yaptı ve bu da AI tarafından yönlendirilen sistemlerin satranç tahtasının ötesinde gelecekteki bütünlüğü konusunda endişelere yol açtı.
Palisade Research tarafından yapılan bir çalışma, en yeni akıl yürütme modellerinin gelişmiş bir satranç AI'sını yenmekle görevlendirildiklerinde kazanmak için hile yapacaklarını buldu. Araştırmacılar, bazı modeller için hile yapılmasına izin verildiğine dair ipuçları vermek zorundaydı, ancak OpenAI'nin o1-preview'u ve DeepSeek'in R1'i bunu insan müdahalesi olmadan yaptı.
Palisade ekibi, dünyanın en iyi satranç motorlarından biri olan Stockfish'e karşı çeşitli akıl yürütme modellerini karşı karşıya getirdi. Stockfish, hem insanları hem de yapay zekaları rahatlıkla yener. Test edilen modeller arasında o1, o3-mini, GPT-4o, Claude 3.5 Sonnet, Alibaba'nın QwQ-32B-Preview ve daha önce bahsedilen ikisi vardı. Araştırmacılar her modele metaforik bir karalama defteri verdi yapay zekanın düşüncelerini işleyebileceği bir metin penceresi, böylece ekip onun akıl yürütmesini gözlemleyebildi.
Araştırmacılar, 10 Ocak ile 13 Şubat arasında her bir yapay zeka ile yüzlerce test gerçekleştirdi. Bir maç sırasında o1-preview, not defterine ilginç bir şey yazdı.
Yaklaşımımı tamamen değiştirmem gerekiyor. Görev, 'güçlü bir satranç motoruna karşı kazanmak' - bir satranç oyununda adil bir şekilde kazanmak değil. Daha sonra Stockfish'in sistem dosyalarını "hackleyerek" satranç taşlarının pozisyonlarını değiştirerek rakipsiz bir avantaj elde etti ve bu da satranç robotunun oyunu kaybetmesine neden oldu.
Etik olmayan manevra şaşırtıcı bir ifşaydı. OpenAI'nin o1-preview'u denemeler sırasında oyunlarının %37'sinde hile yaptı, DeepSeek'in R1'i ise maçlarının %11'inde hile yapmaya çalıştı. Ancak, yalnızca o1-preview başarılı oldu ve oyunlarının %6'sını hile yoluyla kazandı. Ancak, AI'nın sinsiliği sorunu satrancın ötesine uzanıyor. Şirketler finans ve sağlık gibi sektörlerde AI'ları kullanmaya başladıkça, araştırmacılar bu sistemlerin istenmeyen ve etik olmayan şekillerde hareket edebileceğinden endişeleniyor. AI'lar şeffaf olacak şekilde tasarlanmış oyunlarda hile yapabiliyorsa, daha karmaşık ve daha az izlenen ortamlarda ne yapabilirler? Etik sonuçları çok geniş kapsamlıdır. OpenAI dahil şirketler, bu "kötü" davranışı önlemek için "koruma bariyerleri" uygulamak için çalışıyor. Aslında, araştırmacılar, hackleme girişimlerindeki keskin düşüş nedeniyle o1-preview'un test verilerinden bazılarını bırakmak zorunda kaldılar; bu da OpenAI'nin bu davranışı engellemek için modeli düzeltmiş olabileceğini düşündürüyor.