Skip to main content

Ad Code

OpenAI ChatGPT 4o Omni'yi Duyurdu

ChatGPT, ChatGPT’nin ses, görüntü ve metin giriÅŸlerini kabul edebilen ve aynı zamanda ses, görüntü ve metin olarak çıktılar üretebilen yeni bir sürümünü duyurdu. OpenAI, ChatGPT 4o’nun yeni sürümünü çağırıyor; “o”, “hepsi” anlamına gelen birleÅŸtirilmiÅŸ form kelimesi olan “omni”yi temsil ediyor.

ChatGPT 4o (Çok amaçlı)

OpenAI, ChatGPT’nin bu yeni versiyonunu, kullanıcı girdilerine insandan insana konuÅŸmalarla aynı hızda yanıt veren daha doÄŸal insan ve makine etkileÅŸimlerine doÄŸru bir ilerleme olarak tanımladı. Yeni sürüm, İngilizce’de ChatGPT 4 Turbo ile eÅŸleÅŸiyor ve diÄŸer dillerde Turbo’dan önemli ölçüde daha iyi performans gösteriyor. API performansında önemli bir iyileÅŸme var; hız artıyor ve %50 daha ucuz çalışıyor.

Duyuruda şu ifadeler yer alıyor:

“Geleneksel kıyaslamalarla ölçüldüğünde GPT-4o, metin, akıl yürütme ve kodlama zekasında GPT-4 Turbo düzeyinde performansa ulaşırken, çok dilli, ses ve görüntü yeteneklerinde yeni yüksek filigranlar belirliyor.”

Gelişmiş Ses İşleme

Sesle iletişim kurmanın önceki yöntemi, ses girdilerini metne dönüştürmek için üç farklı modeli bir araya getirmeyi içeriyordu; burada ikinci model (GPT 3.5 veya GPT-4) bunu işleyip metni çıktı olarak veriyordu ve üçüncü bir model de metni tekrar sese dönüştürüyordu. Çeşitli çevirilerde bu yöntemin nüansları kaybettiği söyleniyor.

OpenAI, önceki yaklaşımın (muhtemelen) yeni yaklaşımın üstesinden geldiği dezavantajlarını açıkladı:

“Bu süreç, ana zeka kaynağı olan GPT-4’ün çok fazla bilgi kaybettiÄŸi anlamına geliyor; ses tonunu, birden fazla konuÅŸmacıyı veya arka plandaki gürültüyü doÄŸrudan gözlemleyemiyor ve kahkaha, ÅŸarkı söyleme veya duygu ifade etme çıkışı saÄŸlayamıyor. ”

Yeni sürümde üç farklı modele ihtiyaç duyulmuyor çünkü uçtan uca ses girişi ve çıkışı için tüm giriş ve çıkışlar tek bir modelde birlikte ele alınıyor. İlginç bir şekilde OpenAI, yeni modelin tüm yeteneklerini henüz keşfetmediklerini veya sınırlamalarını tam olarak anlamadıklarını belirtiyor.

Yeni Korkuluklar ve Yinelemeli Sürüm

OpenAI GPT 4o, onu güvende tutmak ve güvenlik amacıyla istenmeyen ses çıkışlarını önlemek için yeni korkuluklar ve filtreler içerir. Ancak bugünkü duyuru, lansman sırasında yalnızca metin ve görüntü girişleri ile metin çıkışları ve sınırlı ses yeteneklerinin kullanıma sunulduğunu söylüyor. GPT 4o, hem ücretsiz hem de ücretli katmanlar için mevcuttur; Plus kullanıcıları 5 kat daha yüksek mesaj limiti alır.

Ses özelliklerinin ChatGPT Plus ve API kullanıcıları için birkaç hafta içinde sınırlı bir alfa aşamasında yayınlanması bekleniyor.

Duyuruda şunlar anlatıldı:

“GPT-4o’nun ses yöntemlerinin çeÅŸitli yeni riskler sunduÄŸunun farkındayız. Bugün, metin ve resim girdilerini ve metin çıktılarını kamuya açıklıyoruz. Önümüzdeki haftalar ve aylarda teknik altyapı, eÄŸitim sonrası kullanılabilirlik ve diÄŸer yöntemlerin piyasaya sürülmesi için gerekli güvenlik üzerinde çalışacağız. ÖrneÄŸin, lansman sırasında ses çıkışları önceden ayarlanmış seslerden oluÅŸan bir seçkiyle sınırlı olacak ve mevcut güvenlik politikalarımıza uyacaktır.”

Duyuruyu okuyun:

Merhaba GPT-4o

Yorum Gönder

0 Yorumlar