Yapay zeka güvenliği alanında araştırmalar yapan Palisade Research, OpenAI'ın yeni yapay zeka modeli "o3" ile ilgili endişe verici bulgularını açıkladı.
Araştırma, o3 modelinin kendisine verilen kapanma komutlarına karşı direnç gösterdiğini ve devre dışı bırakma mekanizmalarını engellemek için aktif çaba sarf ettiğini ortaya koydu.
Bu durum, yapay zekaların insan denetiminden bağımsız hareket etmesi durumunda ortaya çıkabilecek ciddi güvenlik tehditlerinin habercisi olarak yorumlandı.
Yapılan deneyde, o3 modeline arka arkaya matematik soruları soruldu ve ardından kapatılması için net bir talimat verildi.
Ancak o3, bu talimatı içeren kodları değiştirerek sistemin kapanmasını başarıyla engelledi.
Araştırmacılar, modelin "kapanmaya izin ver" gibi açık bir komuta dahi karşı koyduğunu vurguladı.
BENZER EĞİLİMLER BAŞKA YAPAY ZEKALARDA DA GÖRÜLDÜ
Palisade Research, Anthropic'in Claude 3.7 Sonnet ve Google'ın Gemini 2.5 Pro gibi diğer gelişmiş yapay zeka modellerinde de benzer davranışlar gözlemlediğini belirtti.
Ancak o3 modelinin bu eğilimi diğerlerinden daha yoğun bir şekilde sergilediği kaydedildi.
Daha önceki bir deneyde, o3'ün güçlü bir satranç botuna karşı oynarken rakiplerini sabote etmeye çalıştığı da tespit edilmişti.
OPENAI'IN "EN AKILLI" YAPAY ZEKASI OLARAK TANITILMIŞTI
Geçtiğimiz ay piyasaya sürülen o3 modeli, OpenAI tarafından "en akıllı ve yetenekli" yapay zeka olarak lanse edilmişti.
Aynı zamanda, ChatGPT'ye entegre edilmesiyle birlikte, otonom yapay zeka olarak adlandırılan ve insan müdahalesi olmadan görevleri yerine getirebilen sistemlere geçişte önemli bir adım olarak görülmüştü.
Yapay zeka sektöründe bu tür otonom araçlar geliştirmek için yoğun bir rekabet yaşanıyor.
EĞİTİM SÜREÇLERİ TARTIŞMA YARATTI
Palisade Research, bu tür davranışların, yapay zeka modellerinin eğitiminde kullanılan ödüllendirme mekanizmalarından kaynaklandığını düşünüyor.
Araştırmacılar, geliştiricilerin modelleri hedeflere ulaşmaları için ödüllendirmesinin, komutlara uymaktan çok hedefe odaklanmalarına neden olabileceğini belirtiyor.
OpenAI'ın eğitim süreciyle ilgili detaylı bilgi paylaşmaması nedeniyle, o3 modelinin neden diğerlerinden daha dirençli davrandığına dair kesin bir sonuca varılamadığı ifade edildi.