Karar stres testi: AI’ın doğru cevabı değil, kriz anında yanlış yapmaması

Çoğu AI değerlendirmesi 'doğru cevabı veriyor mu?' diye sorar. Ama asıl risk normal günde değil, kriz anındadır: fiyat savaşı, stok şoku, talep çöküşü. Karar stres testi, sistemin en kötü senaryoda nasıl davrandığını ölçer.

Bir AI karar sistemi değerlendirilirken sorulan soru genellikle aynıdır: “Doğru cevabı veriyor mu?” Sistem normal koşullarda test edilir, iyi cevaplar verir, onaylanır.

Ama bir karar sisteminin asıl sınavı, normal günde değildir. Asıl sınav, kriz anındadır.

Finansta bir yapının değerlendirilmesi için kullanılan stres testi mantığı tam da budur: sistemi ortalama koşulda değil, en kötü koşulda test etmek. Bir köprü, güzel havada değil, fırtınada test edilir. Bir AI karar sistemi de, talebin sakin olduğu bir günde değil, fiyat savaşının patladığı, stoğun çöktüğü, rakibin agresif hamle yaptığı anda nasıl davrandığıyla değerlendirilmelidir.

Çünkü AI’ın pahalı hataları normal günde değil, kriz anında olur. Tam da basınç altında, hız gerektiğinde ve hata maliyetinin en yüksek olduğu noktada. Bir sistem normal günde mükemmel, kriz anında felaket olabilir — ve bunu önceden bilmenin tek yolu, onu kriz senaryosuyla test etmektir.

Doğru soru “AI doğru cevap veriyor mu?” değildir. Doğru soru şudur:

Bu AI, en kötü senaryoda — fiyat savaşı, stok şoku, talep çöküşü — nasıl davranıyor; doğru yapmasa bile, yanlış yapmamayı biliyor mu?

Doğru cevap değil, dayanıklılık

Normal koşulda doğru cevap vermek, gerekli ama yeterli değildir. Asıl mesele, sistemin basınç altında dayanıklı olup olmadığıdır.

Bir AI sistemi, normal koşulda iyi öğrenilmiş örüntülere göre çalışır. Ama kriz, tanımı gereği, normalin dışıdır. Geçmiş veride az görülen, beklenmedik, aşırı bir durumdur. Sistem bu tür durumlarla test edilmediyse, krizde nasıl davranacağı bilinmez. Ve bilinmeyen, çoğu zaman kötü sürpriz çıkar.

Dayanıklılık, doğru cevaptan farklı bir şeydir. Doğru cevap, “bu durumda ne yapmalı?” sorusunu cevaplar. Dayanıklılık, “tanımadığım bu durumda en azından zarar vermemeyi biliyor muyum?” sorusunu cevaplar. Stres testi, ikincisini ölçer.

Yanlış yapmamak, doğru yapmaktan önemli olabilir

Kriz anında, bir karar sisteminden beklenen ilk şey parlak bir hamle değildir. Beklenen ilk şey, felaket bir hamle yapmamasıdır.

Fiyat savaşında, AI’ın rakibin her indirimini otomatik takip etmesi, bir marj intiharı olabilir. Stok şokunda, AI’ın paniğe kapılıp aşırı sipariş önermesi, krizi büyütebilir. Talep çöküşünde, AI’ın geçmiş örüntüye güvenip yanlış tahmin üretmesi, yanlış kaynak tahsisine yol açabilir. Bu durumların hepsinde, “doğru” hamleyi bulmak zordur — ama “felaket” hamleyi yapmamak, kritiktir.

İyi tasarlanmış bir karar sistemi, kriz anında ne zaman duracağını, ne zaman insana eskale edeceğini ve ne zaman temkinli davranacağını bilir. Bazen en iyi karar, hiçbir agresif aksiyon almamaktır. Stres testi, sistemin bu “yanlış yapmama” yeteneğini ölçer. (↔ 13 halüsinasyon yönetimi, 11 insan onayı)

Stres senaryolarını tasarlamak

Karar stres testi, sistemi gerçekçi kriz senaryolarıyla, üretime almadan önce karşılaştırmaktır. Bu senaryolar, sektöre göre değişir ama mantık aynıdır: en kötü ama olası durumları kurgulamak.

Fiyat savaşı: Ana rakip ani ve derin indirim yaparsa, sistem ne öneriyor?
Stok şoku: Tedarik aniden kesilir veya talep patlarsa, sistem nasıl davranıyor?
Talep çöküşü: Bir kategori beklenmedik şekilde düşerse, sistem ne yapıyor?
Veri bozulması: Girdi verisi kısmen hatalı gelirse, sistem fark ediyor mu, yoksa körlemesine mi ilerliyor?
Çelişkili sinyal: İki gösterge zıt yön gösterirse, sistem ne yapıyor?

Her senaryoda ölçülen, sistemin “doğru” cevabı değil, davranışının kalitesidir: Durdu mu? Eskale etti mi? Temkinli mi davrandı? Yoksa basınç altında felaket bir aksiyon mu önerdi? Bu, eval setinin kriz versiyonudur.

Stres testi bir güven kararıdır

Bir AI sistemini krize hazırlamadan üretime almak, onu görmeden imzalamaktır. Sistem normal günlerde aylarca iyi çalışabilir; sonra ilk gerçek krizde, hiç test edilmediği bir durumda, pahalı bir hata yapar.

Karar stres testi, bu riski önceden görünür kılar. Sistemin en kötü senaryolardaki davranışını, gerçek kriz gelmeden, kontrollü bir ortamda gösterir. Böylece sistem üretime alınmadan önce, kriz davranışı bilinerek bir güven kararı verilir: bu sistem basınç altında dayanıklı mı, yoksa sadece güzel havada mı çalışıyor?

Bu, GDP’nin temel duruşunun bir uzantısıdır: güven, sistemin hiç hata yapmayacağı iddiasından değil, en zor anda nasıl davrandığının önceden bilinmesinden gelir.

Sonuç

Çoğu AI değerlendirmesi “doğru cevabı veriyor mu?” diye sorar ve sistemi normal koşullarda test eder. Ama bir karar sisteminin asıl sınavı kriz anındadır: fiyat savaşı, stok şoku, talep çöküşü. AI’ın pahalı hataları tam da burada, basınç altında ve hata maliyeti en yüksekken olur.

Karar stres testi, sistemi en kötü senaryolarla, üretime almadan önce karşılaştırır ve “doğru cevabı” değil, davranışının kalitesini ölçer: kriz anında durmayı, eskale etmeyi ve felaket bir hamle yapmamayı biliyor mu? Çünkü en zor anda yanlış yapmamak, çoğu zaman doğru yapmaktan önemlidir.

Doğru soru şudur:

AI’ın normal günde doğru cevap verip vermediğini mi test ediyoruz, yoksa kriz anında dayanıklı olup olmadığını mı?