LivChart'ta AI destekli grafik oluşturma deneyimini geliştirirken model seçimini sadece genel sohbet kalitesiyle değerlendirmiyoruz. Bizim için asıl soru şu: Bir model, kullanıcının Türkçe yazdığı analiz isteğini doğru grafik ailesine, doğru metriklere, doğru filtrelere ve çalışan bir önizlemeye ne kadar tutarlı çevirebiliyor?
Bu nedenle son model denemelerinde Chart Wizard için 12 farklı modeli aynı health-check setinden geçirdik. Test seti 32 senaryodan oluşuyor ve bar, line, area, pie, scatter, bubble, heatmap, funnel, waterfall, treemap, sunburst, radar, candlestick, harita, histogram, box, violin, gauge ve combo grafik ailelerini kapsıyor. Ayrıca sadece ilk grafik üretimini değil, filtre koruma, grafik tipini yeniden kurma ve edit-mode davranışını da kontrol ediyor.
Test kapsamı: 12 AI modeli, 32 Chart Wizard senaryosu, Türkçe kullanıcı istekleri, gerçek preview/render kontrolü.
Değerlendirme ekseni: doğru grafik ailesi, doğru metric spec, filtre tutarlılığı, render edilebilir önizleme ve edit-mode kararlılığı.
Kısa Sonuç
Bu test turunda en dengeli sonuç gemma4:31b-cloud modelinden geldi. 32 senaryonun 30'unu başarıyla tamamlayarak en düşük hata sayısına ulaştı. glm-5.1:cloud ve kimi-k2.6:cloud 29/32 başarıyla ikinci grupta yer aldı. Hız tarafında ise gpt-oss:120b-cloud çok iyi bir süre verdi, ancak grafik ailesi seçiminde daha fazla hata yaptığı için genel sıralamada doğruluk liderlerinin arkasında kaldı.
Pratik yorumumuz şu: LivChart gibi analitik odaklı bir üründe model seçimi yalnızca cevap hızına göre yapılamaz. Modelin metric spec üretimindeki tutarlılığı, filtreleri beklenmedik şekilde değiştirmemesi ve grafik ailesi kararlarını doğru vermesi en az hız kadar belirleyici.
İlk üç tabloya bakmadan da net
- Doğruluk lideri: gemma4:31b-cloud, 30/32 başarılı senaryo.
- Denge adayı: glm-5.1:cloud, 29/32 başarı ve 3.17 sn ortalama birim süre.
- Hız adayı: gpt-oss:120b-cloud, 1.85 sn ortalama birim süre; ancak 5 hata.
Başarı görünümü gemma4:31b-cloud 30/32 ██████████████████████████████ glm-5.1:cloud 29/32 █████████████████████████████ kimi-k2.6:cloud 29/32 █████████████████████████████ deepseek-v4-flash 28/32 ████████████████████████████ gpt-oss:120b-cloud 27/32 ███████████████████████████ gemini-3-flash-preview 24/32 ████████████████████████ ministral-3:14b-cloud 9/32 █████████
Testi Nasıl Yaptık?
Testler 29-30 Nisan 2026 tarihli son Chart Wizard full-test raporlarına dayanıyor. Her model aynı satış fixture verisi üzerinde, Türkçe isteklerle ve 32 senaryoluk health-check setiyle çalıştırıldı. Her senaryoda model çıktısının metric spec'e dönüşüp dönüşmediği, önizlemenin render edilip edilmediği, beklenen grafik ailesinin seçilip seçilmediği, filtrelerin korunup korunmadığı ve edit/rebuild akışları kontrol edildi.
Bu bir genel yapay zeka benchmark'ı değil. Sonuçlar LivChart'in gerçek ürün akışı için yaptığı uygulamalı bir karşılaştırmadır. Dolayısıyla bizim için "en iyi model", genel olarak en popüler model değil, BI ürünü içinde en az manuel düzeltme gerektiren modeldir.
Önemli ayrım: Bu çalışma genel LLM sıralaması değildir. LivChart Chart Wizard içinde çalışan grafik üretimi, preview ve edit akışları için yapılmış ürün odaklı bir testtir.
Model Karşılaştırma Özeti
1. grup: Üretime en yakın sonuçlar
- gemma4:31b-cloud: 30/32 başarılı. 2 hata. Toplam süre 379 sn, ortalama birim süre 5.27 sn. En güçlü doğruluk sonucu.
- glm-5.1:cloud: 29/32 başarılı. 3 hata. Toplam süre 228 sn, ortalama birim süre 3.17 sn. Doğruluk ve hız dengesi iyi.
- kimi-k2.6:cloud: 29/32 başarılı. 3 hata. Toplam süre 538 sn, ortalama birim süre 7.48 sn. Doğruluk iyi, süre daha yüksek.
2. grup: İyi ama guard isteyen modeller
- deepseek-v4-flash:cloud: 28/32 başarılı. 4 hata. Toplam süre 376 sn, ortalama birim süre 5.23 sn. Tekrarlı denemelerde 3-4 hata bandında, umut verici ama tutarlılık izlenmeli.
- minimax-m2.7:cloud: 28/32 başarılı. 4 hata. Toplam süre 434 sn, ortalama birim süre 6.03 sn. Genel kalite iyi, karar senaryolarında heatmap/funnel ayrımında zorlandı.
- nemotron-3-super:cloud: 28/32 başarılı. 4 hata. Toplam süre 156 sn, ortalama birim süre 2.16 sn. Hızlı ve kabul edilebilir, ancak grafik ailesi seçiminde bazı sapmalar var.
- qwen3.5:cloud: 28/32 başarılı. 4 hata. Toplam süre 516 sn, ortalama birim süre 7.16 sn. Doğruluk orta-iyi, süre yüksek.
- gpt-oss:120b-cloud: 27/32 başarılı. 5 hata. Toplam süre 133 sn, ortalama birim süre 1.85 sn. Hız çok iyi, fakat scatter/heatmap/funnel kararlarında aile seçimi hataları var.
3. grup: Bu turda zayıf kalanlar
- deepseek-v4-pro:cloud: 26/32 başarılı. 6 hata. Toplam süre 671 sn, ortalama birim süre 9.32 sn. Bu testte flash varyanta göre hem daha yavaş hem daha hatalı göründü.
- gemini-3-flash-preview:cloud: 24/32 başarılı. 8 hata. Toplam süre 241 sn, ortalama birim süre 3.35 sn. Hız makul, ancak metric spec eksikleri ve preview render hataları fazla.
- nemotron3:33b: 21/32 başarılı. 11 hata. Toplam süre 46 sn, ortalama birim süre 0.64 sn. Çok hızlı, ancak metric spec eksikleri nedeniyle ürün akışı için yeterince güvenilir değil.
- ministral-3:14b-cloud: 9/32 başarılı. 23 hata. Toplam süre 141 sn, ortalama birim süre 1.96 sn. En belirgin sorun beklenmeyen filtre üretimi oldu.
Hız ve doğruluk birlikte bakıldığında
Model Başarı Ortalama süre Kısa yorum gemma4:31b-cloud 30/32 5.27 sn En iyi doğruluk glm-5.1:cloud 29/32 3.17 sn En dengeli profil gpt-oss:120b-cloud 27/32 1.85 sn Çok hızlı, daha fazla guard ister nemotron-3-super:cloud 28/32 2.16 sn Hızlı, bazı aile sapmaları var deepseek-v4-pro:cloud 26/32 9.32 sn Bu turda flash varyantın gerisinde
Hata Desenleri Bize Ne Söyledi?
Başarısız senaryoları tek tek incelediğimizde hataların rastgele dağılmadığını gördük. Birinci ana grup preview render hataları. Bu durumda model bir spec üretse bile önizleme motoru istenen grafikle çalışabilir veri üretemiyor. Radar ve candlestick senaryoları bu tür hataları en çok tetikleyen alanlar oldu.
İkinci ana grup chart_family hataları. Bu, modelin kullanıcının niyetini anladığı halde doğru grafik ailesini seçemediği durumları kapsıyor. Örneğin bazı modeller funnel beklenen akış senaryosunda bar veya waterfall seçerek analitik niyeti kaçırdı. Benzer şekilde heatmap beklenen ülke/productline yoğunluk senaryolarında bar grafik seçen modeller oldu.
Üçüncü ve en riskli grup metric_spec_missing hataları. Bu durumda Chart Wizard'in güvendiği yapısal spec başlığı eksik geliyor ve önizleme akışı başlayamıyor. LivChart açısından bu hata tipi yalnızca kalite sorunu değil, aynı zamanda kullanıcı deneyimi kesintisi anlamına geliyor.
Ministral testinde ayrıca farklı bir desen gördük: model çok sayıda senaryoda beklenmeyen filtreler ekledi. Analitik ürünlerde bu davranış özellikle riskli. Çünkü grafik render edilse bile kullanıcı fark etmeden veri kapsamı değişebilir.
En kritik hata tipi: Beklenmeyen filtre üretimi. Grafik çalışıyor gibi görünse bile veri kapsamı değiştiği için kullanıcı yanlış sonuca gidebilir.
Başlıca hata tipleri
- preview_render: Spec oluşuyor, ancak önizleme render edilebilir veri üretemiyor.
- chart_family: Model yanlış grafik ailesini seçiyor; örneğin funnel yerine bar veya waterfall.
- metric_spec_missing: Yapısal metric spec eksik geliyor, akış başlayamıyor.
- unexpected_filters: Model kullanıcı istemeden filtre ekliyor ve veri kapsamını değiştiriyor.
LivChart İçin Pratik Karar
Bu deneme setinden çıkan ilk karar, model seçiminde iki ayrı kategori kullanmak gerektiği. Birincisi varsayılan üretim modeli: burada doğruluk ve spec tutarlılığı en yüksek olmalı. İkincisi hızlı alternatif model: burada yanıt süresi öne çıkabilir, ancak kritik grafik ailelerinde guard ve otomatik düzeltme katmanı daha aktif çalışmalı.
Bu bakışla gemma4:31b-cloud doğruluk lideri olarak öne çıkıyor. glm-5.1:cloud daha dengeli süre/doğruluk profiliyle güçlü bir aday. gpt-oss:120b-cloud ise hızlı cevap gereken akışlarda değerli, ancak chart-family guard'ları olmadan varsayılan model yapmak riskli olur.
LivChart'in yaklaşımı burada tek modele bağlanmak değil. AI destekli BI ürünlerinde en sağlam mimari, model cevabını doğrudan kullanmak yerine metric spec, preview render, filtre koruma ve chart-family guard'larıyla doğrulamaktan geçiyor. Bu sayede model hata yaptığında kullanıcının karşısına bozuk grafik çıkarmak yerine otomatik düzeltme veya güvenli geri dönüş akışı devreye girebiliyor.
Önerilen kullanım matrisi
- Varsayılan üretim adayı: gemma4:31b-cloud.
- Dengeli alternatif: glm-5.1:cloud.
- Hız odaklı alternatif: gpt-oss:120b-cloud, chart-family guard'ları aktifken.
- İzlenecek adaylar: deepseek-v4-flash:cloud, nemotron-3-super:cloud, minimax-m2.7:cloud.
Sıradaki Adım
Bir sonraki test turunda özellikle radar, candlestick, heatmap ve funnel senaryolarına daha fazla ağırlık vereceğiz. Bu grafik aileleri modelin yalnızca doğru kolonları seçmesini değil, analitik niyeti doğru okuması ve LivChart'in metric spec sözleşmesine tam uyması gerektiren alanlar.
Bu testler bize net bir şey gösterdi: BI ürünlerinde AI kalitesi, yalnızca iyi metin yazmakla ölçülmez. Doğru veriyi, doğru grafik ailesine, doğru filtrelerle ve render edilebilir bir yapısal spec ile bağlayabilmek gerekir. LivChart'ta model karşılaştırmalarını tam da bu nedenle ürün akışının içinde, çalışan önizleme ve edit senaryolarıyla birlikte yapıyoruz.