Forum
Blog
Facebook
Instagram
Twitter (X)
Pinterest
WhatsApp
Linkedin
Telegram
29-01-2025 09:41
29-01-2025 09:37
29-01-2025 09:30
Yaklaşık iki haftalık duyuruların ardından OpenAI, 12 günlük canlı yayın serisini, yeni nesil frontier modelinin önizlemesiyle sonlandırdı. OpenAI CEO'su Sam Altman, YouTube'da duyuruyu izleyenlere, "Telefónica'daki (Avrupa'daki O2 hücresel ağının sahibi) arkadaşlara saygıdan ve OpenAI'nin isimler konusunda gerçekten çok kötü olduğu büyük geleneğinden dolayı, buna o3 deniyor" dedi.
Yeni model henüz kamu kullanımına hazır değil. Bunun yerine, OpenAI ilk olarak o3'ü güvenlik testlerinde yardım isteyen araştırmacılara sunuyor. OpenAI ayrıca o3-mini'nin varlığını duyurdu. Altman, şirketin bu modeli "Ocak ayı sonunda" piyasaya sürmeyi planladığını ve o3'ün "kısa bir süre sonra" onu takip edeceğini söyledi.
Beklediğiniz gibi, o3 selefine göre daha iyi bir performans sunuyor, ancak o1'den ne kadar daha iyi olduğu burada önemli bir başlık özelliği. Örneğin, bu yılki Amerikan Davetli Matematik Sınavı'ndan geçirilerek o3 %96,7'lik bir doğruluk puanı elde etti. Buna karşılık, o1 daha mütevazı bir %83,3 puanı aldı. OpenAI'de araştırma kıdemli başkan yardımcısı Mark Chen, "Bu, o3'ün genellikle sadece bir soruyu kaçırdığı anlamına geliyor" dedi. Aslında, o3, OpenAI'nin modellerini uyguladığı olağan kıyaslama paketinde o kadar iyi bir performans gösterdi ki, şirket onu kıyaslamak için daha zorlu testler bulmak zorunda kaldı.
Bunlardan biri, bir AI algoritmasının anında sezgileme ve öğrenme yeteneğini test eden bir ölçüt olan ARC-AGI'dir. Testin yaratıcısı olan kar amacı gütmeyen ARC Ödülü'ne göre, ARC-AGI'yi başarıyla geçebilen bir AI sistemi "yapay genel zekaya doğru önemli bir kilometre taşı" olacaktır. 2019'daki ilk çıkışından bu yana hiçbir AI modeli ARC-AGI'yi geçemedi. Test, çoğu insanın sezgisel olarak çözebileceği girdi-çıktı sorularından oluşur. Örneğin, yukarıdaki örnekte doğru cevap, koyu mavi bloklar kullanılarak dört poliominodan kareler oluşturmak olacaktır.
Düşük hesaplama ayarında, o3 testte %75,7 puan aldı. Ek işlem gücüyle model, %87,5'lik bir puan elde etti. ARC Prize Foundation başkanı Greg Kamradt'a göre, "İnsan performansı %85 eşiğinde karşılaştırılabilir, bu yüzden bunun üzerinde olmak önemli bir kilometre taşıdır."
OpenAI ayrıca o3-mini'yi de tanıttı. Yeni model, OpenAI'nin yakın zamanda duyurulan Uyarlanabilir Düşünme Süresi API'sini kullanarak üç farklı akıl yürütme modu sunuyor: Düşük, Orta ve Yüksek. Pratikte bu, kullanıcıların bir cevap sunmadan önce yazılımın bir problem hakkında ne kadar süre "düşüneceğini" ayarlamasına olanak tanır. Yukarıdaki grafikten görebileceğiniz gibi, o3-mini, OpenAI'nin mevcut o1 akıl yürütme modeline benzer sonuçlar elde edebilir, ancak hesaplama maliyetinin çok daha azına. Daha önce de belirtildiği gibi, o3-mini, o3'ten önce kamu kullanımına sunulacaktır.
Kendi özelleştirilmiş stilini belirle
Uygulamanız için mükemmel renk modunu seçin.
Dil yönünüzü değiştirin
Tam ekran modu aç/kapat
Bu web sitesi, en iyi deneyimi sağlamak için çerezleri kullanır. Daha fazla bilgi için lütfen Çerez Politikamızı okuyun.Kapat