GPT-4o: Kapsamlı Kılavuz ve Açıklama

Sesli dinle

GPT-4o, OpenAI'nin popüler büyük multimodal modeli GPT-4'ün üçüncü büyük versiyonudur ve GPT-4'ün yeteneklerini Vision ile genişletmektedir. Yeni piyasaya sürülen model, ChatGPT arayüzünü kullanırken önceki sürümlere göre çok daha entegre ve kesintisiz bir şekilde kullanıcıyla konuşabiliyor, görebiliyor ve etkileşim kurabiliyor.

GPT-4o duyurusunda OpenAI, modelin "çok daha doğal insan-bilgisayar etkileşimi" yeteneğine odaklandı. Bu yazımızda GPT-4o'nun ne olduğunu, önceki modellerden farklarını ele alacak, performansını değerlendirecek ve GPT-4o'nun kullanım örneklerini ele alacağız.

GPT-4o nedir?
OpenAI'nin GPT-4o'su, "o" omni anlamına gelir ("tüm" veya "evrensel" anlamına gelir), 13 Mayıs 2024'te canlı yayınlanan bir duyuru ve demo sırasında piyasaya sürüldü. Metin, görsel ve işitsel özelliklere sahip çok modlu bir modeldir. OpenAI'nin Vision modeli GPT-4 Turbo ile önceki GPT-4 yinelemesini temel alan giriş ve çıkış yetenekleri. GPT-4o'nun gücü ve hızı, birden fazla yöntemi idare eden tek bir model olmasından kaynaklanmaktadır. Önceki GPT-4 sürümlerinde birden çok tek amaçlı model (sesten metne, metinden sese, metinden görüntüye) kullanılmış ve farklı görevler için modeller arasında parçalı geçiş deneyimi yaratılmıştı.

OpenAI, GPT-4T ile karşılaştırıldığında iki kat daha hızlı olduğunu, hem giriş tokenleri (milyon başına 5 ABD Doları) hem de çıktı tokenleri (milyon başına 15 ABD Doları) açısından %50 daha ucuz olduğunu ve beş kat daha fazla oran sınırına sahip olduğunu (dakikada 10 milyon jetona kadar) iddia ediyor ). GPT-4o, 128K bağlam penceresine sahiptir ve bilgi sonlandırma tarihi Ekim 2023'tür. Yeni yeteneklerden bazıları şu anda ChatGPT aracılığıyla, masaüstü ve mobil cihazlardaki ChatGPT uygulaması aracılığıyla ve OpenAI API aracılığıyla çevrimiçi olarak mevcuttur (API sürümüne bakın) notlar) ve Microsoft Azure aracılığıyla.

GPT-4o'daki Yenilikler Neler?
Sürüm demosu yalnızca GPT-4o'nun görsel ve işitsel yeteneklerini gösterirken, sürüm blogu GPT-4 sürümlerinin önceki yeteneklerinin çok ötesine geçen örnekler içeriyor. Öncekiler gibi metin ve görüntü yeteneklerine sahiptir ancak GPT-4o aynı zamanda video da dahil olmak üzere desteklenen tüm yöntemlerde yerel anlama ve oluşturma yeteneklerine de sahiptir.

Sam Altman'ın kişisel blogunda belirttiği gibi, en heyecan verici gelişme modelin hızıdır, özellikle de model sesli iletişim kurarken. İlk kez yanıtta neredeyse sıfır gecikme yaşanıyor ve GPT-4o ile, insanlarla günlük konuşmalarda nasıl etkileşimde bulunduğunuza benzer şekilde etkileşime girebiliyorsunuz.

GPT-4'ün Vision ile piyasaya sürülmesinden bir yıldan az bir süre sonra (Eylül 2023'teki GPT-4 analizimize bakın), OpenAI, performans ve hızda kaçırmak istemeyeceğiniz anlamlı ilerlemeler kaydetti.

Başlayalım!

GPT-4o Metin Değerlendirmesi
OpenAI tarafından kendi kendine yayınlanan kıyaslama sonuçlarına göre, metin açısından GPT-4o, önceki GPT-4 yinelemeleri, Anthropic'in Claude 3 Opus'u, Google'ın Gemini'si ve Meta'nın Llama3'ü gibi diğer LMM'lerle karşılaştırıldığında biraz daha iyi veya benzer puanlar sunuyor.

Sağlanan metin değerlendirme kıyaslama sonuçlarında OpenAI'nin, Meta'nın Llama3'ünün 400b varyantını karşılaştırdığını unutmayın. Sonuçların yayınlandığı tarihte Meta, 400b varyant modelinin eğitimini tamamlamamıştı.

GPT-4o'nun Video Özellikleri
API sürüm notlarından videoyla kullanıma ilişkin önemli not: “API'deki GPT-4o, görsel yetenekler aracılığıyla videonun (sessiz) anlaşılmasını destekler. Özellikle videoların modele girilmesi için karelere dönüştürülmesi (saniyede 2-4 kare, ya tekdüze olarak örneklenmiş ya da bir ana kare seçim algoritması aracılığıyla) gerekiyor." Videonun girdi olarak nasıl kullanılacağını ve sürümün sınırlamalarını daha iyi anlamak için vizyon için OpenAI klavuz kitabını kullanın.

GPT-4o'nun hem yüklenen bir video dosyasındaki video ve sesi görüntüleme ve anlama hem de kısa videolar oluşturma becerisine sahip olduğu gösterilmiştir.

İlk demoda, GPT-4o'nun görsel öğelere yorum yapması veya yanıt vermesi istenen birçok durum vardı. Gemini ile ilgili ilk gözlemlerimize benzer şekilde demo, modelin gerçek zamanlı bilgiyi "görmesi" gerektiğinde video mu aldığını yoksa bir görüntü yakalamayı mı tetiklediğini netleştirmedi. İlk demoda GPT-4o'nun bir görüntü yakalamayı tetiklemediği ve bu nedenle önceden çekilen görüntüyü gördüğü bir an vardı.

YouTube'daki bu demo videoda GPT-4o, Greg Brockman'ın arkasından tavşan kulakları yapmak için gelen bir kişiyi "fark ediyor". Görünen telefon ekranında ses efektine ek olarak bir “yanıp sönme” animasyonu da oluşuyor. Bu, GPT-4o'nun Gemini'ye benzer bir video yaklaşımı kullanabileceği anlamına gelir; burada ses, videodan çıkarılan görüntü kareleriyle birlikte işlenir.

Video oluşturmanın kanıtlanmış tek örneği, 3 boyutlu model video yeniden yapılandırmasıdır, ancak muhtemelen daha karmaşık videolar oluşturma yeteneğine sahip olduğu tahmin edilmektedir.

GPT-4o'nun Ses Yetenekleri
Video ve görüntülere benzer şekilde GPT-4o aynı zamanda ses dosyalarını alma ve oluşturma özelliğine de sahiptir.

GPT-4o, oluşturulan ses üzerinde etkileyici düzeyde ayrıntılı bir kontrol sergiliyor; iletişim hızını değiştirebiliyor, istendiğinde tonları değiştirebiliyor ve hatta istendiğinde şarkı söyleyebiliyor. GPT-4o yalnızca kendi çıkışını kontrol etmekle kalmıyor, aynı zamanda herhangi bir isteğe ek bağlam olarak giriş sesinin sesini anlama yeteneğine de sahip. Demolar, GPT-4o'nun Çince konuşmaya çalışan birine ton geri bildirimi verdiğini ve ayrıca nefes egzersizi sırasında birinin nefes hızı hakkında geri bildirim verdiğini gösteriyor.

Kendi kendine yayımlanan kıyaslamalara göre GPT-4o, OpenAI'nin otomatik konuşma tanıma (ASR) alanında önceki en son teknoloji olan kendi Whisper-v3'ünden daha iyi performans gösteriyor ve Meta ve Google'ın diğer modelleriyle yapılan ses çevirisinden daha iyi performans gösteriyor.

GPT-4o ile Görüntü Oluşturma
GPT-4o, tek seferlik referans tabanlı görüntü oluşturma ve doğru metin tasvirleri gösterileriyle güçlü görüntü oluşturma yeteneklerine sahiptir.

Aşağıdaki görseller özellikle belirli kelimelerin muhafaza edilmesi ve alternatif görsel tasarımlara dönüştürülmesi talebi göz önüne alındığında etkileyicidir. Bu beceri, GPT-4o'nun özel yazı tipleri oluşturma becerisine paraleldir.

GPT-4o'nun Görsel Anlaşılması
Önceki yinelemelerde mevcut olan en son teknolojiye sahip olmasına rağmen, görsel anlama geliştirildi ve GPT-4T, Gemini ve Claude'a karşı çeşitli görsel anlama kriterlerinde en son teknolojiye ulaşıldı. Roboflow, daha az resmi bir görsel anlama değerlendirmeleri kümesini korur; açık kaynaklı büyük çok modlu modeller için gerçek dünya görüşü kullanım durumlarının sonuçlarını görün.

GPT-4o'nun OCR yeteneği OpenAI tarafından yayınlanmamış olsa da bu yazının ilerleyen kısımlarında değerlendireceğiz.

Görme Kullanım Durumları için GPT-4o'nun Değerlendirilmesi
Daha sonra, optik karakter tanıma (OCR), belge OCR, belge anlama, görsel soru yanıtlama (VQA) ve nesne algılama dahil olmak üzere GPT-4o'nun farklı yönlerini değerlendirmek için hem OpenAI API'yi hem de ChatGPT kullanıcı arayüzünü kullanıyoruz.

GPT-4o ile Optik Karakter Tanıma (OCR)
OCR, bir görüntüdeki görünür metni metin biçiminde döndürmeye yönelik yaygın bir bilgisayarlı görme görevidir. Burada GPT-4o'ya "Seri numarasını oku" komutunu veriyoruz. ve "Resimdeki metni oku", her ikisi de doğru yanıt veriyor.

GPT-4o

Daha sonra GPT-4o'yu diğer OCR modellerini gerçek dünyadaki veri kümelerinde test etmek için kullanılan aynı veri kümesi üzerinde değerlendirdik.

Burada %94,12 ortalama doğruluk (GPT-4V'den +%10,8 daha fazla), %60,76 ortalama doğruluk (GPT-4V'den +%4,78 daha fazla) ve 1,45 saniyelik ortalama çıkarım süresi buluyoruz.

GPT-4V'ye göre %58,47'lik hız artışı, GPT-4o'yu hız verimliliği (zamana göre doğruluk ölçüsü, doğruluğun geçen süreye bölünmesiyle hesaplanan bir ölçüm) kategorisinde lider yapar.

GPT4-o ile Belge Anlama
Daha sonra, GPT-4o'nun yoğun metin içeren bir görüntüden önemli bilgileri çıkarma yeteneğini değerlendiriyoruz. GPT-4o'ya "Ne kadar vergi ödedim?" sorusunun sorulması GPT-4o, faturaya atıfta bulunarak ve pizza menüsüne atıfta bulunarak "Pastırmalı Pizza'nın fiyatı nedir?" sorusunun her ikisine de doğru yanıt veriyor.

Bu, makbuzdan vergi çıkarma konusunda başarısız olan Vision ile GPT-4'e göre bir gelişmedir.

GPT-4o ile Görsel Soru Cevaplama
Daha sonra bir dizi görsel soru ve cevap istemi geliyor. Öncelikle GPT-4o'nun dört jetonlu bir görselde kaç jeton saydığını soruyoruz.

GPT-4o beş jetonun cevabı. Ancak yeniden denendiğinde doğru yanıt verdi. Yanıt olarak yapılan bu değişiklik, bir site çağrısı GPT Kontrolü'nün mevcut olmasının bir nedenidir; kapalı kaynak LMM performansı zaman içinde değişir ve uygulamanızda bir LMM'yi güvenle kullanabilmeniz için nasıl performans gösterdiğini izlemek önemlidir.

Bu, GPT-4o'nun Vision ile GPT-4'te gördüğümüz tutarsız sayma yeteneğinden muzdarip olduğunu gösteriyor.

Ayrıca GPT-4o, Evde Tek Başına sahnesinden bir görüntüyü doğru şekilde tanımlar.

GPT-4o ile Nesne Algılama
Son olarak, multimodal modeller için zor bir iş olduğu kanıtlanmış olan nesne tespitini test ediyoruz. Gemini, Vision ile GPT-4 ve Claude 3 Opus'un başarısız olduğu yerlerde GPT-4o da doğru bir sınırlayıcı kutu oluşturma konusunda başarısız oluyor.

GPT-4o Kullanım Durumları
OpenAI, GPT-4'ün yeteneklerini genişletmeye devam ettikçe ve sonunda GPT-5 piyasaya sürüldükçe, kullanım durumları katlanarak artacaktır. GPT-4'ün piyasaya sürülmesi, görüntü sınıflandırmayı ve etiketlemeyi son derece kolaylaştırdı, ancak OpenAI'nin açık kaynaklı CLIP modeli benzer şekilde çok daha ucuza performans gösteriyor. Görme yeteneklerinin eklenmesi, GPT-4'ün bilgisayarlı görme işlem hatlarındaki diğer modellerle birleştirilmesini mümkün kıldı ve bu da, açık kaynak modellerini, görüşü kullanan daha tam özellikli bir özel uygulama için GPT-4 ile genişletme fırsatını yarattı.

GPT-4o'nun birkaç temel unsuru, daha önce mümkün olmayan başka bir kullanım senaryoları dizisinin önünü açıyor ve bu kullanım senaryolarının hiçbirinin, kıyaslamalarda daha iyi model performansıyla hiçbir ilgisi yok. Sam Altman'ın kişisel blogu, "Yapay zeka yaratın ve sonra diğer insanlar onu hepimizin yararlanacağı her türlü muhteşem şeyi yaratmak için kullanacak" konusunda net bir niyetleri olduğunu belirtiyor. OpenAI'nin hedefi maliyeti düşürmek ve performansı artırmaksa bu nereye varır?

Birkaç yeni kullanım örneğini ele alalım.

Gerçek Zamanlı Bilgisayarlı Görme Kullanım Durumları
Görsel ve işitsel özelliklerle eşleştirilen yeni hız iyileştirmeleri, sonunda GPT-4 için gerçek zamanlı kullanım senaryolarının önünü açıyor ve bu da özellikle bilgisayarlı görme kullanım durumları için heyecan verici. Çevrenizdeki dünyanın gerçek zamanlı görünümünü kullanmak ve bir GPT-4o modeliyle konuşabilmek, hızlı bir şekilde bilgi toplayabileceğiniz ve kararlar alabileceğiniz anlamına gelir. Bu, navigasyondan çeviriye, rehberli talimatlara ve karmaşık görsel verileri anlamaya kadar her şey için faydalıdır.

GPT-4o ile son derece yetenekli bir insanla etkileşimde bulunduğunuz hızda etkileşime geçmek, bize metin yazarken daha az zaman harcamak ve yapay zeka ihtiyaçlarınızı artırdığı için etrafınızdaki dünyayla etkileşimde bulunmak için daha fazla zaman anlamına gelir.

Tek Cihazlı Çok Modlu Kullanım Durumları
GPT-4o'nun masaüstü ve mobil cihazlar için cihaz üzerinde çalışmasını etkinleştirmek (ve trend devam ederse Apple VisionPro gibi giyilebilir cihazlar), birçok görevin sorunlarını gidermek için tek bir arayüz kullanmanıza olanak tanır. Bir yanıta ulaşmanızı sağlayacak şekilde metin yazmak yerine masaüstü ekranınızı gösterebilirsiniz. İçeriği kopyalayıp ChatGPT penceresine yapıştırmak yerine, aynı anda sorular sorarken görsel bilgileri aktarırsınız. Bu, çeşitli ekranlar ve modeller arasındaki geçişleri azaltır ve entegre bir deneyim yaratma gerekliliklerini harekete geçirir.

GPT4-o'nun tek multimodal modeli sürtünmeyi ortadan kaldırır, hızı artırır ve modelle etkileşim kurmanın zorluğunu azaltmak için cihaz girişlerinizi bağlamayı kolaylaştırır.

Genel Kurumsal Uygulamalar
Tek bir modele entegre edilen ek yöntemler ve iyileştirilmiş performansla GPT-4o, kurumsal uygulama hattının özel veriler üzerinde ince ayar gerektirmeyen belirli yönleri için uygundur. Açık kaynak modellerini çalıştırmaktan çok daha pahalı olmasına rağmen, daha hızlı performans, GPT-4o'yu özel görüntü uygulamaları oluştururken kullanışlı olmaya yaklaştırıyor.

Açık kaynaklı modellerin veya ince ayarlı modellerin henüz mevcut olmadığı durumlarda GPT-4o'yu kullanabilir ve ardından GPT-4o'nun bilgisini artırmak veya maliyetleri azaltmak amacıyla uygulamanızdaki diğer adımlar için özel modellerinizi kullanabilirsiniz. Bu, karmaşık iş akışlarının prototipini hızla oluşturmaya başlayabileceğiniz ve birçok kullanım durumunda model yetenekleri tarafından engellenmeyeceğiniz anlamına gelir.


GPT-4o'nun en yeni iyileştirmeleri iki kat daha hızlı, %50 daha ucuz, 5 kat hız sınırı, 128K bağlam penceresi ve tek bir çok modlu model, yapay zeka uygulamaları geliştiren kişiler için heyecan verici gelişmelerdir. Giderek daha fazla kullanım durumu yapay zeka ile çözülmeye uygun hale geliyor ve çoklu girişler kusursuz bir arayüze olanak tanıyor.

Daha hızlı performans ve görüntü/video girişleri, GPT-4o'nun kurumsal uygulamalar oluşturmak için özel olarak ayarlanmış modeller ve önceden eğitilmiş açık kaynaklı modellerin yanı sıra bilgisayarlı görüntü iş akışında kullanılabileceği anlamına gelir.

Leo Ueno, Trevor Lynn. (14 Mayıs 2024). GPT-4o: Kapsamlı Kılavuz ve Açıklama. 


0
0
0
0
0
0
0
0
0
0


henüz yorum yok
Tema Ayarları

Kendi özelleştirilmiş stilini belirle

Mod Seç

Uygulamanız için mükemmel renk modunu seçin.


RTL Mode

Dil yönünüzü değiştirin


Fluid Layout

Tam ekran modu aç/kapat

Görünüm