Çin’den gelen Birentech şirketi, bugüne kadarki en hızlı GPU’su Biren BR100 üzerinde çalışıyordu. Şirketin kamuoyuna açıkladığı bilgilere dayanarak Biren BR100, AI işlemede NVIDIA’nın A100 GPU’larından daha hızlı performans sunan Genel Amaçlı bir GPU olmayı hedefliyor. Şimdi Hot Chips 34’te şirket, Biren GPGPU serisindeki özellikler ve mimari hakkında bize daha fazla ayrıntı sunuyor.
Çin’in En Hızlı Genel Amaçlı MCM GPU’su, Birentech Biren BR100, Mimari Detaylı
Birentech BR100 Çin’in sunduğu, 7 nm işlem düğümü kullanan ve kalıbında 77 Milyar transistör barındıran bir şirket içi GPU mimarisine sahip, amiral gemisi Genel Amaçlı GPU’dur. GPU, TSMC’nin 2.5D CoWoS tasarımına göre üretilmiştir ve ayrıca 300 MB çip üzerinde önbellek, 2,3 TB/s bellek bant genişliğine sahip 64 GB HBM2e ve PCIe Gen 5.0 (CXL ara bağlantı protokolü) desteği ile birlikte gelir. Tüm çip, işlem düğümünün retikül sınırının ötesinde olan 1074 mm2’yi ölçer.
BR100 GPU’yu tasarlamaya giden bazı temel bilgiler şunları içeriyordu:
- Retikül boyutu sınırını kırmak ve bir çipe daha fazla transistör entegre etmek için
- Birden çok SKU’yu güçlendirmek için bir bant çıkışı
- Daha iyi verim için daha küçük kalıp, dolayısıyla daha düşük maliyet
- 896 GB/sn yüksek hızlı kalıptan kalıba ara bağlantı
- Monolitik bir tasarıma kıyasla %30 daha fazla performans ve %20 daha iyi verim
Mimarinin kendisinden bahsedecek olursak, Biren BR100, her biri 16 SPC veya Akış İşleme Kümesi barındıran iki yongadan oluşur. Her SPC’nin 16 EU’sı vardır ve bu EU’lardan dördü, 64 KB L1 önbelleğe (LSC) bağlı dahili bir İşlem Birimi veya CU oluştururken SPC, tüm Yürütme Birimlerinde paylaşılan bir 8 MB L2 önbelleğe sahiptir. Bu, 512 Yürütme Birimi, 256 MB L2 önbellek ve 8 MB L1 önbellek içeren toplam 32 SPC’dir.
Yürütme Birimine daha derin bir bakış, 16 akış işleme çekirdeğini (V-Core) ve tek bir Tensör Motorunu (T-Core) ortaya çıkarır. 40 KB TLR (Thread Local Register), 4 SFU ve bir TDA (Tensor Data Accelerator) vardır. İlginç bir şekilde, her CU 4, 8 ve 16’ya kadar AB içerebilir. V-Core’un kendisi, Batch Norm, ReLu, vb. Ayrıca süper skaler modda (statik ve dinamik) 32 SPC’de 128K’ya kadar iş parçacığı çalıştırabilen gelişmiş bir SIMT Modeline sahiptir. T-Cores için tensör tasarımı, MMA, Convolution vb. gibi AI işlemlerini hızlandırmak için kullanılır.
Birentech, çipin çeşitli performans ölçümlerini açıkladı. 2048 TOP (INT8), 1024 TFLOP (BF16), 512 TFLOP (TF32+) ve 256 TFLOP (FP32) sunuyor ve performans rakamlarına göre bu çip NVIDIA Ampere’den daha hızlı olacak gibi görünüyor. A100, en azından kağıt üzerinde. GPU, çeşitli HPC iş yüklerinde NVIDIA Ampere A100 ile karşılaştırıldı ve ana rakibine göre 2,6 kata kadar ortalama hızlanma ve 2,8 kata kadar hızlanma sunacak gibi görünüyor.
Hazne H100 GPU aynı GPU performans ölçütlerinde yaklaşık 2 kat veya 2,5 kat daha fazla performans sunar. Çip ayrıca 64 kanallı kodlamayı ve 512 kanallı kodlamayı da destekler. Ara bağlantılara gelince, çip, 2,3 TB/sn harici G/Ç bant genişliği sunan 8 BLink çözümüyle birlikte geliyor.
İlginç olan şey, BR100’ün genel transistör sayısı açısından diğerlerine kıyasla o kadar da geride olmamasıdır. NVIDIA H100, H100, yeni N4 işlem düğümünde 80 Milyar transistör içerirken BR100, 7nm işlem düğümünün arkasında sadece 3 Milyar transistördür. Bu, çok daha büyük bir kalıp boyutuna yol açacaktır.
Birentech Biren BR100 | |
---|---|
İşlem | 7nm |
Sistem arayüzü, bant genişliği, ara bağlantı protokolü | PCIe5.0 X16, 128GB/sn, CXL desteği |
FP32 TFLOPS (en yüksek) | 256 |
TF32+ TFLOPS (en yüksek) | 512 |
BF16 TFLOPS (en yüksek) | 1.024 |
INT8 ÜSTLER (en yüksek) | 2.048 |
Bellek kapasitesi, arayüz bit genişliği, bant genişliği | 64GB HBM2E;4,096bit, 1,64TB/sn |
ara bağlantı | 512 GB/sn BLink™, 8 x8 bağlantı noktasını destekler |
Güvenli sanal örnek | 8 porsiyona kadar |
Video codec bileşeni (FHD@30fps) | 64 kanal HEVC/H.264 kodlama/512 kanal HEVC/H.264 kod çözme |
TDP | 550W |
Ürün formu | OAM modülü |
Çin merkezli şirketin açıkladığı tek çip Biren BR100 değil. ayrıca şu var Biren BR104 bu, BR100’ün performans ölçütlerinin yarısını sunuyor, ancak teknik özellikler henüz söylenmedi. Diğer çipte mevcut olan tek detay, chiplet tasarımı kullanan Biren BR100’ün aksine, BR104’ün monolitik bir kalıp olması ve 300W TDP’li standart bir PCIe form faktörü içinde gelmesidir.
Birentech Biren 104 | |
---|---|
İşlem | 7nm |
Sistem arayüzü, bant genişliği, ara bağlantı protokolü | PCIe5.0 X16, 128GB/sn, CXL desteği |
FP32 TFLOPS (en yüksek) | 128 |
TF32+ TFLOPS (en yüksek) | 256 |
BF16 TFLOPS (en yüksek) | 512 |
INT8 ÜSTLER (en yüksek) | 1.024 |
Bellek kapasitesi, arayüz bit genişliği, bant genişliği | 32GB HBM2E; 2.048bit, 819GB/sn |
ara bağlantı | 192 GB/sn BLink™, 3 x8 bağlantı noktasını destekler |
Güvenli sanal örnek | 4 porsiyona kadar |
Video codec bileşeni (FHD@30fps) | 32 kanal HEVC/H.264 kodlama, 256 kanal HEVC/H.264 kod çözme |
TDP | 300W |
Ürün formu | Tam yükseklikte tam uzunlukta, çift yuvalı PCIe kartı |
Şirket, 77 Milyar transistöre sahip bir çipin insan beyni sinir hücrelerini taklit edebileceğini ve çipin kendisinin DNN ve AI amaçları için kullanılacağını, dolayısıyla Çin’in NVIDIA’nın AI GPU’larına olan bağımlılığının yerini alacağını belirtiyor.