Yapay zeka arama motorları doğruluk testinde başarısız oldu

TechSpiker

Teknoloji Haberleri

Yönetici

Yetki Sahibi

Çarşamba saat 19:55'de

AI modellerinin doğruluktan yoksun olabileceği kaçınılmaz bir sonuçtur. Halüsinasyonlar ve yanlış bilgilere iki katına çıkmak geliştiriciler için devam eden bir mücadele olmuştur. Kullanım, bireysel kullanım durumlarında o kadar çok değişir ki AI doğruluğuyla ilgili ölçülebilir yüzdeleri belirlemek zordur. Bir araştırma ekibi artık bu sayılara sahip olduklarını iddia ediyor.

Yakın zamanda ChatGPT Arama, Perplexity, Perplexity Pro, Gemini, DeepSeek Arama, Grok-2 Arama, Grok-3 Arama ve Copilot dahil olmak üzere sekiz AI arama motorunu inceledi. Her birini doğruluk açısından test ettiler ve araçların ne sıklıkla yanıt vermeyi reddettiğini kaydettiler.

Araştırmacılar 20 haber yayıncısından her biri on 200 haber makalesini rastgele seçtiler. Makaleden alıntılanmış bir bölüm kullanıldığında her hikayenin Google aramasında ilk üç sonuç içinde dönmesini sağladılar. Ardından, her AI arama aracında aynı sorguyu gerçekleştirdiler ve aramanın A) makaleyi, B) haber kuruluşunu ve C) URL'yi doğru bir şekilde alıntılayıp alıntılamadığına göre doğruluğu derecelendirdiler.

Araştırmacılar daha sonra her aramayı doğruluk derecelerine göre "tamamen doğru"dan "tamamen yanlış"a etiketlediler. Aşağıdaki diyagramdan görebileceğiniz gibi, Perplexity'nin her iki versiyonu dışında, AI'lar iyi performans göstermedi. Toplu olarak, AI arama motorları zamanın %60'ında yanlıştır. Dahası, bu yanlış sonuçlar AI'nın bunlara olan güveni tarafından güçlendirildi.