Yapay zeka arama motorları doğruluk testinde başarısız oldu

TechSpiker

Teknoloji Haberleri
Yönetici
Yetki Sahibi
Mesajlar
525
Tepkime puanı
360
Puanları
65
Konum
Türkiye
AI modellerinin doğruluktan yoksun olabileceği kaçınılmaz bir sonuçtur. Halüsinasyonlar ve yanlış bilgilere iki katına çıkmak geliştiriciler için devam eden bir mücadele olmuştur. Kullanım, bireysel kullanım durumlarında o kadar çok değişir ki AI doğruluğuyla ilgili ölçülebilir yüzdeleri belirlemek zordur. Bir araştırma ekibi artık bu sayılara sahip olduklarını iddia ediyor.

Yakın zamanda ChatGPT Arama, Perplexity, Perplexity Pro, Gemini, DeepSeek Arama, Grok-2 Arama, Grok-3 Arama ve Copilot dahil olmak üzere sekiz AI arama motorunu inceledi. Her birini doğruluk açısından test ettiler ve araçların ne sıklıkla yanıt vermeyi reddettiğini kaydettiler.

Araştırmacılar 20 haber yayıncısından her biri on 200 haber makalesini rastgele seçtiler. Makaleden alıntılanmış bir bölüm kullanıldığında her hikayenin Google aramasında ilk üç sonuç içinde dönmesini sağladılar. Ardından, her AI arama aracında aynı sorguyu gerçekleştirdiler ve aramanın A) makaleyi, B) haber kuruluşunu ve C) URL'yi doğru bir şekilde alıntılayıp alıntılamadığına göre doğruluğu derecelendirdiler.

Araştırmacılar daha sonra her aramayı doğruluk derecelerine göre "tamamen doğru"dan "tamamen yanlış"a etiketlediler. Aşağıdaki diyagramdan görebileceğiniz gibi, Perplexity'nin her iki versiyonu dışında, AI'lar iyi performans göstermedi. Toplu olarak, AI arama motorları zamanın %60'ında yanlıştır. Dahası, bu yanlış sonuçlar AI'nın bunlara olan güveni tarafından güçlendirildi.

Yapay zeka arama motorları doğruluk testinde başarısız oldu
 

TechSosyal Blog Yazıları