NVIDIA kısa süre önce bir derin dalış AMD EPYC CPU’lara göre 2,5 kata kadar performans artışı sunan yeni nesil Grace CPU Superchip.
NVIDIA, AMD EPYC Milan’a Karşı Grace CPU Superchip ile 2,5 Kat Performans ve 3,5 Kat Verimlilik Kazanımı Gösteriyor
NVIDIA, Grace CPU ve GTC 2022’deki ilgili Superchip tasarımı. Grace CPU, NVIDIA’nın sunucu / HPC segmentini hedefleyecek özel bir Arm mimarisine dayalı ilk işlemcisidir. CPU, iki Superchip konfigürasyonunda gelir; iki Grace CPU’lu bir Grace Superchip modülü ve bir Hopper H100 GPU’ya bağlı bir Grace CPU’lu bir Grace+Hopper Superchip.

Grace’in öne çıkan özelliklerinden bazıları şunlardır:
- HPC ve bulut bilgi işlem için yüksek performanslı CPU
- 144 Arm v9 CPU çekirdeğine kadar süper çip tasarımı
- ECC Bellekli dünyanın ilk LPDDR5x’i, toplam 1 TB/sn bant genişliği
- 740’ın üzerinde SPECrate2017_int_base (tahmini)
- 900 GB/s tutarlı arayüz, PCIe Gen 5’ten 7 kat daha hızlı
- DIMM tabanlı çözümlerin 2 katı paketleme yoğunluğu
- Günümüzün önde gelen CPU’larından 2 kat daha fazla watt başına performans
- RTX, HPC, AI ve Omniverse dahil olmak üzere tüm NVIDIA yazılım yığınlarını ve platformlarını çalıştırır
NVIDIA Grace CPU Superchip mimarisi özellikleri | |
Çekirdek mimari | Neoverse V2 Çekirdekleri: 4x128b SVE2 ile Armv9 |
Çekirdek sayısı | 144 |
önbellek | L1: Çekirdek başına 64 KB I-önbellek + 64 KB D-önbellek L2: Çekirdek başına 1 MB L3: Süper çip başına 234 MB |
Bellek teknolojisi | ECC’li LPDDR5X, birlikte paketlenmiş |
Ham bellek BW | 1 TB/sn’ye kadar |
Hafıza boyutu | 960 GB’a kadar |
FP64 zirvesi | 7.1 TFLOP’lar |
PCI Ekspres | 8 adet PCIe Gen 5 x16 arayüzü; Toplam 1 TB/s PCIe bant genişliğini ikiye ayırma seçeneği. Yönetim için ek düşük hızlı PCIe bağlantısı. |
Güç | Hafızalı 500 W TDP, 12 V besleme |
NVIDIA’nın ilk sunucu CPU’su olan Grace, SVE2 ve Nested Virtualization ve S-EL2 gibi çeşitli sanallaştırma uzantıları için destek sunan 72 Arm v9.0 çekirdeğine sahiptir. CPU, TSMC’nin NVIDIA için özel olarak yapılmış 5nm işlem düğümünün optimize edilmiş bir versiyonu olan 4N işlem düğümü üzerinde üretilmiştir. Yeni mimari, 7,1 TFLOP’a kadar en yüksek FP64 performansını sağlayabilir.

Grace eşlenecek şekilde tasarlanmıştır ve bu nedenle tasarımın en önemli yönlerinden biri C2C (Çipten Çipe) ara bağlantısıdır. Grace bunu, Superchip’leri yapmak için kullanılan ve tipik bir çapraz soket yapılandırmasıyla ilişkili tüm darboğazları ortadan kaldıran NVLINK ile başarır.

C2C NVLINK ara bağlantısı, yalnızca 1,3 pJ/bit gibi çok düşük bir güç arabiriminde veya öncekinden 5 kat daha verimli çalışırken, 900 GB/sn ham çift yönlü bant genişliği sağlar (Haznedeki GPU’dan GPU’ya NVLINK anahtarıyla aynı bant genişliği) PCIe protokolü.
NVIDIA Grace CPU, dağıtılmış bir önbellek tasarımına sahip ölçeklenebilir bir tutarlılık yapısına sahiptir. Çip, 3,225 TB/sn’ye kadar ikiye bölünmüş bant genişliğine sahiptir, 72 çekirdeğin (Superchip’te 144) ötesine ölçeklenebilir, çekirdek başına 117 MB L3 önbelleği veya Superchip başına 234 MB’ı entegre eder ve Arm bellek bölümleme ve izleme desteği sunar ( MPAM). Grace ayrıca paylaşılan sayfa tablolarıyla birleşik bir bellek mimarisine de izin verir. İki NVIDIA Grace+Hopper Superchip, bir NVSwitch aracılığıyla birbirine bağlanabilir ve bir Superchip üzerindeki Grace CPU, diğer yongadaki GPU ile doğrudan iletişim kurabilir ve hatta yerel NVLINK hızlarında VRAM’ine erişebilir.
Grace’in bellek tasarımına daha yakından bakıldığında NVIDIA, 32 kanalda 960 GB’a kadar LPDDR5X (ECC) kullanıyor ve 1 TB/s’ye kadar bellek bant genişliği sağlıyor. NVIDIA, genel bant genişliği, maliyet ve güç gereksinimi göz önünde bulundurulduğunda LPDDR5X’in en iyi değeri sağladığını belirtir. Örneğin, DDR5’e kıyasla LPDDR5X alt sistemi, saniyede gigabayt başına sekizde bir güçle ve benzer bir maliyetle %53 daha fazla bant genişliği sağlar. Ek olarak, HBM2e belleği daha fazla bant genişliği ve verimlilik sağlayabilirdi, ancak maliyeti 3 kat daha fazlaydı.
G/Ç için, dördü 128 GB/sn’de x16 bağlantıları için kullanılabilen ve ikisinin geri kalanı MISC için kullanılan 68 PCIe Gen 5.0 şeridi elde edersiniz. Ayrıca iki adet Gen 5 PCIe x16 bağlantısıyla paylaşılan 12 uyumlu NVLINK şeridi vardır.
TDP’ye gelince, NVIDIA Grace (Yalnızca CPU) Superchip, tek çekirdekli performans için optimize edilmiştir ve 144 çekirdekli çift çip yapılandırması için 1 TB/sn’ye kadar bellek bant genişliği ve 500 W TDP sunar.
NVIDIA tarafından sergilenen performans rakamları, OpenFOAM, WRF, NEMO ve BWA gibi çeşitli HPC iş yüklerinde Grace CPU Superchip’i çift soketli (2P) AMD EPYC 7763 “Milan” CPU’lara karşı koydu. OpenFOAM’da Grace CPU Superchip, 3,5 kata kadar verimlilikle 2,5 kata kadar inanılmaz bir performans artışı sağlar. Ortalama olarak, NVIDIA’nın yeni Grace CPU Superchip’i, AMD’nin EPYC Milan CPU’larına kıyasla vat başına 1,9 kat performans artışı ve 2,57 kat performans artışı sunabilmelidir. Bu aynı zamanda AMD ve Intel’in en yeni sunucu yongalarına karşı rekabetçi bir performansa yol açacaktır.
NVIDIA Grace CPU Superchip ve AMD EPYC 7763 Milan CPU’lar:

NVIDIA, Grace’in 1 trilyondan fazla parametreye sahip yeni nesil NLP modellerinin eğitimi gibi iş yüklerini hedefleyen oldukça özel bir işlemci olduğunu belirtiyor. NVIDIA GPU’larla sıkı bir şekilde birleştiğinde, Grace CPU tabanlı bir sistem, x86 CPU’larda çalışan günümüzün son teknoloji NVIDIA DGX tabanlı sistemlerinden 10 kat daha hızlı performans sunacaktır.
