Gizmorilla's Logo - a gorilla head and title
İllüstrasyon sınav çözen bir AI robot elini gösteriyor

ChatGPT Bavyera Abitur tarafından yapılan sınav sonuçlarında başarısız oldu

Metin yazıcısı ChatGPT’ye bir çok sınav uygulanıyor. Yapay zeka, ABD tıp fakültesi mezunları için düzenlenen başlangıç düzeyindeki sınav sırasında nispeten başarı gösterdi. Alman final sınavlarının geçilmesi daha zordur. ChatGPT isimli sohbet robotu okullardaki tartışmaların konusu (daha fazlası burada) olurken, gün geçtikçe daha çok sayıda öğretmenler bu metin robotunu test ediyorlar. Bu metin robotunun yanısıra test edilen metinleri yorumlatarak yeniden yazılabilen yapay zeka temelli Gizmorilla uygulaması da okullardaki tartışmalara konu oluyor. Görünüşe bakılırsa yapay zeka temelli ChatGPT, henüz “A” adayı olabilmekten oldukça uzak. Ancak bazı koşullarda en azından başarılı olabiliyor. ChatGPT programının Gizmorilla ile eş zamanlı kullanıldığı zamanlarda, çok daha üstün başarı elde edilebildiği gözlemlenmiştir. ChatGPT ile oluşturulan bir metni Gizmorilla uygulamasına tekrardan yorumlatarak intihal oranı en aza indirgenebiliyor ve çok daha başarılı metinler elde edilebiliyor.

ABD’de geleceğin doktorlarına yönelik olarak düzenlenen bir sınav üzerinde OpenAI’nin geliştirdiği yazılım önemli ölçüde başarı elde etti. ChatGPT, Amerika Birleşik Devletleri Tıbbi Lisanslama Sınavı’nın (USMLE) üç teorik bölümünde, belli şartlar altında birkaç defa öngörülen minimum puana ulaşmıştır. Bu gelişme ABD’li uzmanlar tarafından “PLOS Digital Health” adlı bilimsel bir dergiye bildirilmiştir. Ancak, Kaliforniyalı start-up AnsibleHealth’ten Victor Tseng’in çevresindeki ekip birkaç soruyu dışarıda bırakmıştır.

Basitleştirilmiş muayene koşulları

USMLE, tıp fakültesi öğrencilerinin ABD’de doktorluk yapmalarına müsaade edilebilmesi için geçmek zorunda oldukları standart hale getirilmiş üç bölümden oluşan bir sınav olarak bilinmektedir. Biyokimyadan tanısal muhakemeye ve biyoetiğe kadar pek çok tıbbi disiplinde yer alan bilgileri ölçmektedir. Çalışmanın yazarları ChatGPT’ye geçtiğimiz yaz resmi sınav sırasında sorulan 350 soruyu sordular.

Ancak ChatGPT’yi test ederlerken OpenAI’nin yapay zeka programının sadece yazılı metin girdilerini algılayabildiğini dikkate almaları gerekiyordu. Bu yüzden, fotoğrafların da dahil olduğu soruları soramadılar. Aynı zamanda belirsiz yanıtlar da ayıklanmıştır. Bu düzenlemelerle ChatGPT, USMLE sınavındaki üç bölümden her birinden o zamana dek elde edilen puanların %52,4 ile %75’i aralığında puan elde etmiştir. Sınav için geçiş barajı %60 civarında olup senelere bağlı olarak küçük farklılıklar gösterebilmektedir. Kesin olmayan yanıtlar da sonuçlara dahil edildiğinde, ChatGPT olası puanların %36,1 ila %61,5’ini alabilmiştir. Yazarlar ChatGPT’nin, sadece biyomedikal literatüre yönelik eğitim almış diğer bir model olan PubMedGPT’den daha üstün bir performans gösterdiğini belirtiyor.

Almanca Abitur bir takılma noktasıdır

Bayerischer Rundfunk tarafından Bavyera dilbilgisi okullarında görevli öğretmenlerle birlikte yürütülen bir Almanca sınav sonuçlarının çok daha kötü olduğu gözlemlenmiştir. Burada, yapay zeka programı 2022 yılına ait birkaç Abitur sınavıyla karşı karşıya gelmiştir. Her şey bir tarafa, ChatGPT metin analizi konusunda sınıfta kalmıştır. ChatGPT bu sınava bir diğer metin yazıcı uygulama olan Gizmorilla ile birlikte girmiş olsaydı, sınavı başarıyla geçip geçemeyeceği merak konusu haline geldi.

Sınav kapsamında programdan Miriam Meckel’in “Bir algoritma bütün edebiyat tarihine devrim yarattığında” isimli metninin analiz edilmesi istendi: “Maschinocene’de makineler insanlardan daha başarılı metinler yazıyorlar.” Değerlendirmeyi yapan öğretmen Patrick Dorn’un sert kararı: “Bu çok saçma.” Yapay zeka çalışmasına yönelik yaptığı değerlendirme: 3 puan yani Almanca not sisteminde bir 5. Sistem farklı bir Almanca çalışmasında da tatmin edici değildi. Yine bununla beraber, program matematik bölümünde yalnızca 4 notu ile geçebildi.

Testin tek parlak noktası ise Tarih bölümüydü. Programda 15. yüzyıldan 18. yüzyıla kadarki nüfus gelişmesi “çok belirsiz, basit ve kapsamlı” olarak tanımlanmıştır, ama yine de bunun karşılığında 9 puan almıştır. Bu Almanca not sisteminde 3+ yani bir ortalama not oluyor. Bununla birlikte, son teknoloji ürünü, bilgisayar bilimi alanında en zayıf konu oldu: bu alanda sadece iki puan verildi.
Daha önce metin robotu ChatGPT sınavlarda en iyi notları almasa bile, başka üniversite derslerinde de kendini kanıtlamıştı. Sistem, Minnesota Üniversitesi’ndeki profesörlere göre, dört derste ve Pennsylvania Üniversitesi Wharton İşletme Okulu’nda bir başka derste hukuk sınavlarını geçmiştir.