Intel, NVIDIA’nın A100’üne Karşı Ponte Vecchio 2 Yığın GPU ve Sapphire Rapids HBM CPU Performansını Sergiliyor
Intel Fellow & Chief GPU Compute Architect, Hong Jiang’ın sunumunda, mavi ekipten yaklaşmakta olan sunucu güç merkezleriyle ilgili daha fazla ayrıntı alıyoruz. Ponte Vecchio GPU, tekil bir OAM ile başlayan ve tek başına veya çift soketli Sapphire Rapids platformuyla çalışan Xe Bağlantılı bir x4 Alt Sisteme kadar değişen üç yapılandırmayla gelir.
OAM, hem 4 GPU hem de 8 GPU platformları için hepsi bir arada topolojileri destekler. Tüm platformu tamamlayan, mimariler arası programlamayı desteklemek için düşük seviyeli bir donanım arabirimi sağlayan Düzey-Zero API olan Intel’in oneAPI yazılım yığınıdır. oneAPI’nin ana özelliklerinden bazıları şunlardır:
- Hızlandırıcı cihazlara oneAPI ve diğer araçlar için arayüz
- Hızlandırıcı özelliklerinde hassas kazanç kontrolü ve düşük gecikme süresi
- Çok İş parçacıklı Tasarım
- GPU’lar için, sürücünün bir parçası olarak gönderilir
Performans ölçütlerine gelince, tek bir OAM’de bulunana benzer bir 2 Yığın Ponte Vecchio GPU yapılandırması, 52 TFLOP FP64/FP32 hesaplama, 419 TFLOP TF32 (XMX Float 32), 839 TFLOP TF32 sunabilir. INT8 beygir gücünde BF16/FP16 ve 1678 TFLOP’lar.
Intel ayrıca maksimum önbellek boyutlarını ve her biri tarafından sunulan en yüksek bant genişliğini ayrıntılı olarak açıklar. Ponte Vecchio GPU’daki Kayıt Dosyası boyutu 64 MB’dir ve 419 TB/s bant genişliği sunar, L1 önbellek de 64 MB’de gelir ve 105 TB/s (4:1) sunar ve L2 önbellek 408 MB’de gelir 13 TB/s bant genişliği (8:1) sunarken, HBM bellek 128 GB’a kadar havuzlar ve 4,2 TB/s bant genişliği (4:1) sunar. Ponte Vecchio’da aşağıdakiler gibi bir dizi hesaplama verimliliği tekniği vardır:
Kayıt Dosyası:
- Önbelleğe Alma
- akümülatörler
L1/L2 Önbellek:
- Yazın
- Cevap yazmak
- Akış Yaz
- önbelleğe alınmamış
Ön getirme:
- Yazılım (talimat) L1 ve/veya L2’ye önceden getirme
- Komut Akışı, talimat ve veriler için L2’ye önceden getirme
Intel, daha büyük L2 önbelleğinin 2D-FFT Kasası ve DNN Kasası gibi iş yüklerinde bazı büyük kazanımlar sağlayabileceğini açıklıyor. Tam bir Ponte Vecchio GPU ile 80 MB ve 32 MB olarak aşağı yapılandırılmış bir modül arasındaki bazı performans karşılaştırmaları gösterilmiştir.
Ancak hepsi bu kadar değil, Intel ayrıca CUDA ve SYCL çalıştıran NVIDIA Ampere A100 ile SYCL kullanan kendi Ponte Vecchio GPU’ları arasında performans karşılaştırmalarına sahiptir. Ligandın hedef ile bağlanma enerjisini tahmin edebilen hesaplamalı bir iş yükü olan miniBUDE’de Ponte Vecchio GPU, test sonuçlarını Ampere A100’den 2 kat daha hızlı simüle eder. ExaSMR’de (büyük nükleer reaktör tasarımları için Küçük Modüler Reaktörler) başka bir performans ölçüsü daha vardır. burada, Intel GPU’nun NVIDIA GPU’ya göre 1,5 kat performans üstünlüğü sunduğu gösterilmiştir.
Intel’in Ponte Vecchio GPU’larını hala Ampere A100 ile karşılaştırması biraz ilginç çünkü yeşil ekip o zamandan beri yeni neslini piyasaya sürdü. Chipzilla 2-2.5x performans rakamlarına bu kadar güveniyorsa, aksi olmadıkça Hopper ile iyi rekabet etmekte sorun yaşayacağını düşünmüyorum.
İşte Intel 7 Powered Ponte Vecchio GPU’ları Hakkında Bildiğimiz Her Şey
Intel, 128 Xe çekirdeği, 128 RT birimi, HBM2e bellek ve birbirine bağlanacak toplam 8 Xe-HPC GPU gibi amiral gemisi veri merkezi GPU’sunun bazı temel özelliklerini açıkladı. Çip, EMIB ara bağlantısı aracılığıyla bağlanacak iki ayrı yığında 408 MB’a kadar L2 önbelleğe sahip olacak. Çip, Intel’in kendi ‘Intel 7’ işlemine ve TSMC’nin N7 / N5 işlem düğümlerine dayanan çoklu kalıplara sahip olacak.
Intel ayrıca daha önce paketinin ve kalıp boyutunun ayrıntılarını verdi. Çip, yığın başına 16 aktif kalıp içeren 2 karodan oluşacaktır. Maksimum aktif üst kalıp boyutu 41mm2 olurken, ‘Compute Tile’ olarak da adlandırılan temel kalıp boyutu 650mm2’dir. Ponte Vecchio GPU’ların kullanacağı, aşağıda listelenen tüm chiplet’lere ve işlem düğümlerine sahibiz:
- Intel 7nm
- TSMC 7nm
- Foveros 3D Paketleme
- EMIB
- 10nm Gelişmiş Süper Fin
- Rambo Önbellek
- HBM2
Intel, Ponte Vecchio çipinde 47 karoya nasıl ulaşır:
- 16 Xe HPC (dahili/harici)
- 8 Rambo (dahili)
- 2 Xe Baz (dahili)
- 11 EMIB (dahili)
- 2 Xe Bağlantısı (harici)
- 8 HBM (harici)
Ponte Vecchio GPU, 8 HBM 8-Hi yığınından yararlanır ve toplam 11 EMIB ara bağlantısı içerir. Intel Ponte Vecchio paketinin tamamı 4843,75 mm2 boyutunda olacaktır.
Ponte Vecchio GPU, 1 çip değil, birkaç çipin birleşimidir. Tam olarak 47, herhangi bir GPU/CPU’da en fazla yongayı paketleyen bir yonga güç merkezidir. Ve bunlar sadece bir süreç düğümüne değil, birkaç gün önce detaylandırdığımız gibi birkaç süreç düğümüne dayanmaktadır.