Pazartesi, Aralık 11, 2023
Ana Sayfa Donanım NVIDIA TensorRT-LLM, Büyük Dil Modellerini Olağanüstü Şekilde Artırıyor, Hopper GPU'larda 8 Kat'a...

NVIDIA TensorRT-LLM, Büyük Dil Modellerini Olağanüstü Şekilde Artırıyor, Hopper GPU’larda 8 Kat’a Kadar Kazanç

- Advertisement -

NVIDIA bugün TensorRT LLM olarak bilinen ve GPU’larındaki Büyük Dil Modellerinin performansını artıran yepyeni bir AI yazılım yığınını duyuruyor.

NVIDIA TensorRT-LLM, Hopper AI GPU’larda Büyük Dil Modeli Performansında 8 Kat’a Kadar Kazanç Sağlıyor

NVIDIA’nın TensorRT-LLM’si, NVIDIA’nın Hopper gibi AI GPU’ları ile tüm Büyük Dil Modellerinde en hızlı çıkarım performansını sağlayan, yüksek oranda optimize edilmiş, açık kaynaklı bir kitaplık olarak duyuruldu. NVIDIA, SmoothQuant, FlashAttention ve fMHA gibi en ileri tekniklere sahip en yeni AI çekirdeklerini kullanarak GPU’larını optimize etmek için açık kaynak topluluğu içindeki tüm Yüksek Lisans’larla birlikte çalıştı. Açık kaynak temeli, yalnızca birkaçını saymak gerekirse GPT-3 (175B), Llama Falcom (180B) ve Bloom gibi LLM’lerin çalıştırmaya hazır SOTA çıkarımı için optimize edilmiş sürümlerini içerir.

TensorRT-LLM ayrıca Infiniband ara bağlantısıyla birden fazla NVLINK sunucusu arasında otomatik paralelleştirme yapacak şekilde optimize edilmiştir. Daha önce, sunuculara birden fazla sunucu/GPU genelinde büyük bir dil modelinin manuel olarak atanması gerekiyordu; bu durum artık Tensor-RT LLM’de geçerli olmamalıdır.

TensorRT-LLM’nin getirdiği en büyük güncellemelerden biri, Uçuş İçi toplu işlem olarak bilinen ve işin diğer görevlerden bağımsız olarak GPU’ya girip çıkmasına olanak tanıyan yeni bir zamanlayıcı biçimindedir. Aynı GPU’da yoğun işlem gerektiren büyük istekleri işlerken birden fazla küçük sorgunun dinamik olarak işlenmesine olanak tanır. Tüm bu süreç GPU’yu daha verimli hale getiriyor ve H100 gibi GPU’larda verimlilikte tam olarak 2 katına kadar bazı büyük kazanımlara yol açıyor.

TensorRT-LLM yığını ayrıca Hopper’ın Transformer motoru ve hesaplama FP8 yetenekleri çerçevesinde optimize edilmiştir. Kitaplık, otomatik FP8 dönüştürme, çekirdek füzyonu için bir DL derleyici ve karma hassasiyet iyileştiricinin yanı sıra doğruluk kaybı olmadan 8 bit niceleme performansı sağlayan NVIDIA’nın kendi Smoothquaint algoritmasını destekler.

Performans rakamlarına gelecek olursak NVIDIA, A100’ü H100’ün ağustos ayındaki performansıyla ve H100’ün TensorRT-LLM performansını karşılaştırıyor. GPT-J 6B’de (Çıkarım) H100 zaten 4 kat kazanç sunuyordu ancak TensorRT-LLM ile şirket performansı iki katına çıkararak bu özel testte 8 kat kazanç elde etti. Llama2’de TensorRT LLM ile 5 kata kadar, TensorRT-LLM olmadan standart H100’e göre neredeyse 2 kata kadar kazanç görüyoruz.

NVIDIA, TensorRT-LLM kullanarak LLM’lerini hızlandırmak için Meta, Grammarly, Deci, anyscale vb. gibi önde gelen tüm çıkarım iş yükleriyle çalıştıklarını belirtiyor.

Kullanılabilirliğe gelince, TensorRT-LLM şu anda erken erişimde ve önümüzdeki ay tam sürümünün yayınlanması bekleniyor.

Desteğe gelince, TensorRT-LLM, bugün üretimde olan A100, H100, L4, L40, L40S, HGX, Grace Hopper ve benzeri tüm NVIDIA Veri Merkezi ve AI GPU’ları tarafından desteklenecektir.

BENZER YAZILAR

Windows 12 Konsepti Nefis Görünüyor, Akıcı Tasarım Bolluğu

Bir noktada Microsoft'un masaüstü işletim sistemi için genel "Windows" adıyla bağlı kalacağına inanılırken, şimdi yazılım devi her sürüm için özel sürümlere geri dönüyor gibi...

Atatürk’ün Söylev ve Demeçleri

Prof.Dr. Ali Sevim, Doç.Dr. İzzet Öztoprak, Prof.Dr. M.Akif Tural / Atatürk Araştırma MerkeziBüyük önderimiz Atatürk’ün söylev ve demeçlerini kapsayan bu tek ciltlik eserde daha...

Öbür Türkler/Enis BERBEROĞLU

Kitap, Kafkasya’daki Türklerin bağımsızlık mücadelelerini ve bu mücadeleler sırasında Türkiye’nin bu devletlere karşı aldığı tutumu tarih sırasına göre anlatmasından oluşmaktadır. Kitap üç ana kısımda...

POPÜLER YAZILAR

İnsan Hücreleri Minik Biyolojik Robotlara Dönüştü

Çok hücreli robotlar hareket ediyor ve kültürlenmiş nöronlarda oluşturulan "yaraların" iyileşmesine yardımcı oluyor. Tufts Üniversitesi ve Harvard Üniversitesi'nin Wyss Enstitüsü'ndeki araştırmacılar, insan trakeal hücrelerinden Anthrobot...

WhatsApp Yakında Sohbetlerinizi Gizli Bir Kodla Kilitlemenize İzin Verecek

WhatsApp düzenli olarak genel kullanıcı deneyimini düşündüğünüzden çok daha fazla geliştiren özellikler alıyor. Bugün şirket, Sohbet Kilidi işlevselliğinin bir uzantısı olarak hizmet verecek yeni...

Bebeklerin Dil Ustalığı İçin Neden Tekerlemelere İhtiyacı Var?

Bebekler yedi aylık olana kadar fonetik bilgiyi güvenilir bir şekilde işlemeye başlamıyor; araştırmacılar bunun dilin temelini oluşturmak için çok geç olduğunu söylüyor. Konuşmanın en...

NVIDIA DLSS 3 Kare Üretimi ve AMD Akışkan Hareketli Çerçeve Teknolojisi Kombinasyonu, Oyunlarda 3 Kat’a Kadar Performans Artışı Sağlıyor

NVIDIA'nın DLSS 3 Kare Üretimi ve AMD Akışkan Hareketli Çerçeve teknolojileri hiçbir zaman birlikte çalışacak şekilde tasarlanmamıştı. NVIDIA DLSS 3 Çerçeve Geni ve AMD Akışkan...