Yapay Zeka - Çin'in en büyük silahı

Yapay Zeka - Çin'in en büyük silahı

Jensen Huang, bugün FT'ye verdiği mülakatta Çin'in enerji ve regülasyon avantajlarına dikkat çekti ve 'Çin yarışı kazanacak' diyerek son derece keskin bir uyarıda bulundu.

Aslında bu konuyu uzun zamandır http://semianalysis.com yazıyor.

Hatta Nisan ayında Huawei uyarısını yapmışlardı. Çinlilerin donanım kısıtı var ama enerji kısıtı yok demişlerdi.

Şimdi tekrar o harika makaleyi buldum. Uzun ve teknik bir konu. YZ eliyle özetini bırakıyorum. Grafikleri ayrıca, kapalı olarak arşivleyeceğim. Açık paylaşmak doğru olmaz.


Huawei, CloudMatrix 384 adını verdiği devasa yeni sistemle sahneye çıktı. Bu platform, tamamen Huawei’nin Ascend 910C çipleri üzerine kurulu ve Nvidia’nın GB200 NVL72 süper sistemine doğrudan rakip. Fakat fark, çip gücünde değil, sistem mühendisliğinde.

Huawei, tek bir işlemcide Nvidia kadar ileri olmasa da, 384 çiplik dev bir ağ kurarak bu farkı kapatıyor. Her bir çip, 2,8 terabit saniye bağlantı hızına sahip. Bunlar “all-to-all” yani her biri diğerine doğrudan bağlı. Bütün bağlantılar tamamen optik. Bakır kablo sıfır. Bu da “100% fiber, 0% copper” mottosunu gerçeğe dönüştürüyor.

Bu tasarımın sonucu etkileyici. CloudMatrix 384 tam 300 PFLOP işlem gücü sunuyor. Yani BF16 formatında neredeyse Nvidia GB200’ün iki katı. Bellek kapasitesi 3,6 kat fazla, bant genişliği 2,1 kat yüksek. Ancak bu gücün bedeli ağır. Sistem Nvidia’nın dört katı enerji, yani yaklaşık 600 kilovat çekiyor. FLOP başına verimlilik 2,6 kat daha düşük.

Yine de bu Çin için problem değil. Çünkü Çin’in elinde enerji bolluğu, ama çip kıtlığı var. Batı, elektriği sınırlı kaynak olarak görürken Çin tam tersini yaşıyor. Son on yılda ülke, adeta bir ABD büyüklüğünde yeni bir enerji şebekesi inşa etti. Kömür, güneş, rüzgar, hidroelektrik ve nükleer yatırımlar birlikte ilerliyor.

Huawei’nin stratejisi bu yüzden mantıklı. “Enerji ucuz, silikon pahalı” yaklaşımıyla, verim değil kapasiteyi maksimize ediyor. Yani güç tüketimi artıyor ama toplam performans da katlanıyor.

Gelelim üretim tarafına. Ascend 910C çipi Çin’de tasarlanıyor ama tamamen yerli üretim değil. Asıl üretim TSMC’nin 7 nanometre hattında yapılıyor. Üstündeki HBM bellekler Samsung’dan geliyor. Üstelik ABD’nin ihracat yasaklarına rağmen. Huawei bu bileşenleri “Sophgo” adlı aracı bir şirket üzerinden yarım milyar dolarlık wafer alımıyla temin etti. ABD yönetimi bunu saptadı ve TSMC’ye 1 milyar dolar ceza kesti. Ancak söylentilere göre üretim hala dolaylı yoldan devam ediyor.

Çin aynı zamanda yerli üretimi büyütmeye çalışıyor. SMIC ve CXMT fabrikaları büyük yatırımlar aldı. SMIC, Shanghai, Shenzhen ve Pekin’de yeni hatlar kuruyor. Bu yıl içinde aylık 50 bin wafer kapasitesine ulaşması bekleniyor. Eğer HBM üretimi de yerli hale gelirse, Huawei tamamen Çin kaynaklı bir GPU ekosistemi kurabilir.

CloudMatrix 384’ün fiziksel yapısı da dikkat çekici. Sistem 16 rack’ten oluşuyor. Bunların 12’si işlem, 4’ü ağ bağlantısı için. Her rack’te 32 GPU var. Aralarındaki iletişim Huawei’nin CloudEngine 16800 anahtarlarıyla sağlanıyor. Bu anahtarlar, veriyi “cell spraying” tekniğiyle parçalayıp paralel aktarıyor. Broadcom’un Jericho3 ve Ramon3 sistemlerine benzer bir yapı.

Ancak bu mimariyi yönetmek kolay değil. Sistemde tam 6912 adet 400G optik modül var. Bu da bakım ve soğutma açısından ciddi mühendislik yükü getiriyor. Her biri potansiyel arıza noktası. Dolayısıyla Huawei, yüksek hata toleranslı yapay zeka eğitim yazılımları geliştirmek zorunda.

Bu yapı, Nvidia’nın 2022’de iptal ettiği DGX H100 NVL256 “Ranger” projesine benziyor. Nvidia o projeyi “aşırı maliyetli ve güvenilmez” diye rafa kaldırmıştı. Huawei ise aynı yöntemi daha ucuz yerli optik modüllerle uygulamayı başardı.

Çip düzeyinde Ascend 910C, iki adet 910B interposer’ı tek tabanda birleştiren bir tasarım. Böylece hem işlem hem de bellek performansı ikiye katlanıyor. Yine de Nvidia çipleri kadar verimli değil.

Ancak sistem ölçeğinde tablo değişiyor. CloudMatrix 384, toplamda 70% daha fazla FLOP sunuyor. Buna karşılık güç verimliliği 2,5 kat geride. Bellek bant genişliği başına enerji kullanımı 1,9 kat daha kötü. Fakat Çin için bu önemsiz. Çünkü ulusal stratejik öncelik artık “enerjiyle zeka üretmek”.

Bu sistemin politik yönü de açık. ABD’nin çip kısıtlamalarına rağmen Çin, alternatif yollar buldu. Samsung ve aracı firmalar üzerinden HBM stoğu yapıldı, CoAsia Electronics’in geliri bu sayede patladı. Yani Çin, ithalat zincirini esneterek yasa dışı sayılmayan gri bölgeleri sonuna kadar kullanıyor.

Sonuçta Huawei’nin CloudMatrix 384’ü, Çin’in yapay zekada bağımsızlık ilanı gibi. Enerji sınırı olmayan, tamamen optik bağlantılı, devasa bir sistem. Verimlilikte geride ama ölçekle dengeyi kuruyor.

Kısacası Huawei artık “çip yarışı” yerine “sistem yarışı” oynuyor. Nvidia hâlâ teknoloji lideri ama Huawei ölçek, ağ mimarisi ve enerji gücüyle sahayı genişletiyor. Çin’in “AI süper gücü” olma iddiası artık sadece bir niyet değil, fiziksel bir veri merkezi gerçeği haline geliyor.

Harika! Başarıyla kaydoldunuz.

Tekrar hoş geldiniz! Başarıyla oturum açtınız.

Dragonomi 'a başarıyla abone oldunuz.

Başarılı! Giriş yapmak için sihirli bağlantıyı e-postanızda kontrol edin.

Başarılı! Fatura bilgileriniz güncellendi.

Faturanız güncellenmedi.