Chatbot Arena: Yapay zeka sohbet robotları insan tercihleriyle yarışıyor

Yapay zeka alanında hangi büyük dil modelinin (LLM) daha iyi performans gösterdiğini anlamak giderek zorlaşırken UC Berkeley ile bağlantılı LMSYS Org tarafından geliştirilen “Chatbot Arena LLM Liderlik Tablosu”, topluluk odaklı benzersiz bir çözüm sunuyor. Bu platform, yapay zeka sohbet robotlarını geleneksel testler yerine, gerçek dünya konuşma senaryolarında insan tercihleri üzerinden değerlendirip sıralıyor.
Nasıl Çalışıyor? Satranç Sistemi Yapay Zekaya Uyarlandı
Chatbot Arena ile kullanıcılar, hangi robotun verdiği yanıtın daha iyi, daha doğru, daha yardımcı, daha tutarlı, daha yaratıcı veya genel olarak daha tatmin edici olduğunu belirler. Ayrıca kullanıcılar hangi modelle konuştuklarını bilmeden, aynı soruya verilen iki farklı yanıtı karşılaştırır ve hangisini tercih ettiklerini oylarlar. Bu tercihlere dayalı oylar, modellerin göreceli “kazanma” oranlarını (yani ne sıklıkla tercih edildiklerini) ölçen Elo derecelendirme sistemiyle birleştirilir.
Chatbot Arena’nın çalışma prensibi şu şekilde özetlenebilir:
- Kullanıcılar platforma girerek, kimlikleri gizlenmiş iki farklı yapay zeka modeliyle aynı komut (prompt) üzerinden sohbet ediyor.
- Her iki modelin verdiği yanıtları inceleyen kullanıcılar, hangisini daha çok beğendiklerini seçerek oy veriyor.
- Bu “kör” karşılaştırmalardan toplanan milyonlarca oy (şu ana kadar 2 milyondan fazla), geleneksel olarak satranç gibi rekabetçi oyunlarda oyuncuları sıralamak için kullanılan Elo derecelendirme sistemi ile işleniyor. Bu sayede modellerin birbirlerine göre göreceli performansları belirleniyor ve dinamik bir liderlik tablosu oluşturuluyor.
Öne Çıkan Özellikler:
- Kitle Kaynaklı Değerlendirme: Sürekli güncellenen sıralama, geniş bir kullanıcı kitlesinin kolektif yargısını yansıtıyor.
- Anonim Test: Modellerin kimliklerinin gizlenmesi, önyargısız bir değerlendirme sağlıyor.
- Çeşitli Model Yelpazesi: OpenAI’nin GPT-4’ü, Google’ın Gemini’ı gibi kapalı modellerden Vicuna, DeepSeek gibi açık kaynak alternatiflere kadar geniş bir yelpazede modeli içeriyor.
- Komut Odaklı Analiz: Belirli komutlara özel değerlendirmeler yapılmasına olanak tanıyan yöntemler (Prompt-to-Leaderboard gibi) sayesinde daha detaylı performans analizleri mümkün oluyor.
Nisan 2025 İtibarıyla Zirvedeki Modeller
Chatbot Arena’nın son verilerine göre liderlik tablosunun zirvesinde yer alan bazı modeller ve Elo puanları şöyle (Yüksek puan daha iyi performansı gösterir):
- GPT-4.5-Preview (OpenAI) – Elo: 197
- Gemini-2.0-Pro-Exp-02-05 (Google) – Elo: 180
- Gemini-2.5-Pro-Exp-03-25 (Google) – Elo: 137
- ChatGPT-4o-latest (2025-03-26) (OpenAI) – Elo: 106
- Grok-3-Preview-02-24 (xAI) – Elo: 102
(Not: Elo puanları sürekli güncellenmektedir.)
Yakın Zamandaki Gelişme: Şeffaflık Tartışması
Nisan 2025’te Meta, Llama 4 modelinin özel olarak sohbet performansı için optimize edilmiş ve halka açık sürümünden farklı olan “Maverick-03-26-Experimental” adlı bir versiyonunu liderlik tablosuna sunmasıyla eleştirilerin odağı oldu. Bu olay, yapay zeka değerlendirmelerinde şeffaflık, tekrarlanabilirlik ve karşılaştırma standartlarının bütünlüğünün önemini bir kez daha gündeme getirdi.
Chatbot Arena, yapay zeka modellerinin gerçek dünyadaki yeteneklerini anlamak için değerli, dinamik ve katılımcı bir platform sunmaya devam ediyor. İlgilenenler, platformun resmi web sitesi (lmarena.ai) veya Hugging Face sayfası üzerinden sıralamaları takip edebilir ve değerlendirmelere katkıda bulunabilirler.