Donanım

NVIDIA TensorRT-LLM, Büyük Dil Modellerini Olağanüstü Şekilde Artırıyor, Hopper GPU’larda 8 Kat’a Kadar Kazanç

– Advertisement –

NVIDIA bugün TensorRT LLM olarak bilinen ve GPU’larındaki Büyük Dil Modellerinin performansını artıran yepyeni bir AI yazılım yığınını duyuruyor.

NVIDIA TensorRT-LLM, Hopper AI GPU’larda Büyük Dil Modeli Performansında 8 Kat’a Kadar Kazanç Sağlıyor

NVIDIA’nın TensorRT-LLM’si, NVIDIA’nın Hopper gibi AI GPU’ları ile tüm Büyük Dil Modellerinde en hızlı çıkarım performansını sağlayan, yüksek oranda optimize edilmiş, açık kaynaklı bir kitaplık olarak duyuruldu. NVIDIA, SmoothQuant, FlashAttention ve fMHA gibi en ileri tekniklere sahip en yeni AI çekirdeklerini kullanarak GPU’larını optimize etmek için açık kaynak topluluğu içindeki tüm Yüksek Lisans’larla birlikte çalıştı. Açık kaynak temeli, yalnızca birkaçını saymak gerekirse GPT-3 (175B), Llama Falcom (180B) ve Bloom gibi LLM’lerin çalıştırmaya hazır SOTA çıkarımı için optimize edilmiş sürümlerini içerir.

TensorRT-LLM ayrıca Infiniband ara bağlantısıyla birden fazla NVLINK sunucusu arasında otomatik paralelleştirme yapacak şekilde optimize edilmiştir. Daha önce, sunuculara birden fazla sunucu/GPU genelinde büyük bir dil modelinin manuel olarak atanması gerekiyordu; bu durum artık Tensor-RT LLM’de geçerli olmamalıdır.

TensorRT-LLM’nin getirdiği en büyük güncellemelerden biri, Uçuş İçi toplu işlem olarak bilinen ve işin diğer görevlerden bağımsız olarak GPU’ya girip çıkmasına olanak tanıyan yeni bir zamanlayıcı biçimindedir. Aynı GPU’da yoğun işlem gerektiren büyük istekleri işlerken birden fazla küçük sorgunun dinamik olarak işlenmesine olanak tanır. Tüm bu süreç GPU’yu daha verimli hale getiriyor ve H100 gibi GPU’larda verimlilikte tam olarak 2 katına kadar bazı büyük kazanımlara yol açıyor.

TensorRT-LLM yığını ayrıca Hopper’ın Transformer motoru ve hesaplama FP8 yetenekleri çerçevesinde optimize edilmiştir. Kitaplık, otomatik FP8 dönüştürme, çekirdek füzyonu için bir DL derleyici ve karma hassasiyet iyileştiricinin yanı sıra doğruluk kaybı olmadan 8 bit niceleme performansı sağlayan NVIDIA’nın kendi Smoothquaint algoritmasını destekler.

Performans rakamlarına gelecek olursak NVIDIA, A100’ü H100’ün ağustos ayındaki performansıyla ve H100’ün TensorRT-LLM performansını karşılaştırıyor. GPT-J 6B’de (Çıkarım) H100 zaten 4 kat kazanç sunuyordu ancak TensorRT-LLM ile şirket performansı iki katına çıkararak bu özel testte 8 kat kazanç elde etti. Llama2’de TensorRT LLM ile 5 kata kadar, TensorRT-LLM olmadan standart H100’e göre neredeyse 2 kata kadar kazanç görüyoruz.

NVIDIA, TensorRT-LLM kullanarak LLM’lerini hızlandırmak için Meta, Grammarly, Deci, anyscale vb. gibi önde gelen tüm çıkarım iş yükleriyle çalıştıklarını belirtiyor.

Kullanılabilirliğe gelince, TensorRT-LLM şu anda erken erişimde ve önümüzdeki ay tam sürümünün yayınlanması bekleniyor.

Desteğe gelince, TensorRT-LLM, bugün üretimde olan A100, H100, L4, L40, L40S, HGX, Grace Hopper ve benzeri tüm NVIDIA Veri Merkezi ve AI GPU’ları tarafından desteklenecektir.

İlgili Makaleler

Başa dön tuşu