WSJ - 'Çin arayı kapatıyor'
Daha geçen gün Çin'deki AI modelleriyle ilgili bir not düşmüştüm. Üstüne az önce WSJ makalesi geldi. Çin arayı hızla kapatıyor diyorlar. Özetlemek yerine AI eliyle tamamen çevirip arşive bırakıyorum. Meraklısı için okumaya değer.
WSJ -- Çin merkezli girişimler, gelişmiş çip alımındaki kısıtlamalara rağmen, Amerika'nın önde gelen yapay zeka modellerine sektörde beklenenden çok daha hızlı bir şekilde yaklaşma belirtileri gösteriyor.
Çin'in en başarılı hedge fon yöneticilerinden biri tarafından finanse edilen DeepSeek, Kasım ayında en yeni büyük dil modelinin ön sürümünü piyasaya sürdü. Şirket, programın yeteneklerinin OpenAI'ın Eylül ayında ön sürümü çıkan o1 adlı akıl yürütme modeliyle olumlu şekilde karşılaştırılabilir olduğunu belirtti.
Diğer Çin şirketleri de son haftalarda benzer iddialarda bulundu. Alibaba ve Tencent tarafından desteklenen Moonshot AI, o1'e yakın yeteneklere sahip matematikte uzmanlaşmış bir model geliştirdiğini açıklarken, Alibaba kendi deneysel araştırma modellerinden birinin matematik konusunda Amerikan modelinin ön sürümünü geride bıraktığını belirtti.
Şirketler modellerini açıklayan makaleler yayımlamadı ve bir yapay zeka modelinin yeteneklerini ölçen tek bir kabul görmüş test olmadığından iddiaları değerlendirmek zor. Yine de bazı Amerikalı uzmanlar etkilendiklerini ifade etti.
OpenAI'ın eski üyesi ve şu anda yapay zeka girişimcisi olan Andrew Carr, Çin'in "daha hızlı yakaladığını" söyledi. DeepSeek araştırmacılarının OpenAI'ın akıl yürütme modelini kopyalama çabalarına ilişkin olarak "birkaç ay içinde çözdüler ve açıkçası meslektaşlarımın çoğu buna şaşırdı" dedi.
Karşılaştırma için kullanılan testlerden biri, en parlak lise matematik öğrencilerini zorlamak için tasarlanan Amerikan Davetli Matematik Sınavı'dır (AIME).
DeepSeek, modelinin AIME'de OpenAI'ı geçtiğini söyledi. The Wall Street Journal'ın bu yılki AIME'den 15 problem kullanarak yaptığı bir deney, OpenAI'ın o1 ön modelinin cevaplara DeepSeek, Moonshot ve deneysel Alibaba modelinden daha hızlı ulaştığını gösterdi. Varsayımsal bir iki oyunculu oyundaki stratejiyi içeren bir kelime bulmacasında, OpenAI programı cevabı 10 saniyede verirken DeepSeek iki dakikadan fazla süre aldı.
İlk denemede doğru cevabı bulmak, kelime problemlerinin yapay zeka programlarını genellikle zorlaması nedeniyle hala önemli bir başarıdır.
Çinli yapay zeka geliştiricileri, 2022'den beri Nvidia dahil olmak üzere dünyanın en gelişmiş yapay zeka çiplerine erişimde ABD kısıtlamalarıyla karşı karşıya kaldı. Biden yönetimi Aralık ayında ihracat kontrol kurallarını yeniden sıkılaştırdı.
Ancak geliştiriciler alternatif çözümler buldu.
Alibaba ve Tencent tarafından desteklenen Moonshot'ta, kurucu Yang Zhilin şirketin insanların deneme yanılmasını taklit eden pekiştirmeli öğrenmeye odaklandığını söyledi. Bu yaklaşım, performansı iyileştirmede bilgi işlem gücünü daha az yoğun kullanabilir.
Geçen yılın sonlarından bu yana, yapay zeka geliştiricileri giderek artan bir şekilde "uzmanlar karışımı" veya MoE olarak adlandırılan bir teknik kullanıyor. Bu teknikte, bir baş şefin spagetti siparişini mutfağın İtalyan aşçısına yönlendirmesi gibi, ilk yönlendirme mekanizması problemi uzmanlaşmış bir model ekspere yönlendiriyor. Bu süreç çiplere olan talebi de hafifletiyor.
Tencent, Kasım ayında piyasaya sürdüğü MoE modelinin, Meta Platforms'un Temmuz ayında tanıttığı Llama 3.1 modeline benzer performans gösterdiğini söyledi. İki şirketin yayınladığı makaleleri inceleyen araştırmacılar, Tencent'in modelinin muhtemelen Meta'nın kullandığı bilgi işlem gücünün onda biriyle eğitildiğini belirtti.
DeepSeek, 8 milyar dolarlık varlığa sahip ve yapay zekayı ticaret için kullanan kantitatif hedge fon yöneticisi High-Flyer'ın yapay zeka araştırma birimi olarak başladı. 2021'de DeepSeek, yapay zeka eğitimi için Fire-Flyer 2 adını verdiği bir küme oluşturmak üzere yaklaşık 10.000 Nvidia A100 çipini bir araya getirdi.
DeepSeek, Ağustos ayında yayınlanan bir makalede, Fire-Flyer 2'nin benzer çipleri içeren bir Nvidia sistemine yakın performans gösterdiğini, ancak Çin sisteminin daha az maliyetli olduğunu ve daha az enerji tükettiğini belirtti. DeepSeek'in verileri daha verimli işleyen bir tekniği içeren MoE modeli hakkındaki Mayıs ayı makalesi sektörde geniş yankı uyandırdı.
Yapay zeka girişimi Anthropic'in kurucu ortağı Jack Clark, DeepSeek'in kümesine atıfta bulunarak blogunda "Çin'in ihracat kontrollerini aşmasının bir yolu - erişebildiği donanımı kullanarak son derece iyi yazılım ve donanım eğitim yığınları oluşturmak" yazdı. "Yapay zeka modelleri, elektrikli arabalar, dronlar ve diğer teknolojilerde olduğu gibi 'Çin Malı' bir olgu olacak" diye ekledi.
Birçok Çinli yapay zeka geliştiricisi, aracılar ve yurt dışı veri merkezleriyle ticaret dahil olmak üzere kısıtlı Nvidia çiplerine erişmenin yollarını buldu.
Yine de, Çinli yöneticilere göre, en son teknoloji çiplerin eksikliği Çinli girişimlere zarar veriyor ve bu fark açılmaya hazır. Nvidia müşterileri, Blackwell adı verilen en yeni yapay zeka veri merkezi çipini önemli ölçekte konuşlandırmaya hazırlanıyor.
Elon Musk'ın xAI'ı 100.000 Nvidia çipi ile bir veri merkezi kurdu ve daha fazlasını yapmak için yakın zamanda 5 milyar dolar topladı. Amazon Web Services, kendi ürettiği yüz binlerce çiple devasa bir yapay zeka süper bilgisayarı inşa etmeyi planlıyor.
Açık kaynaklı modellere odaklanan DeepSeek, matematik ve kodlamaya önem veriyor. Moonshot, ChatGPT benzeri sohbet robotu Kimi ile Çinli tüketiciler arasında popülerlik kazandı ve uzun metinleri işleme yeteneğiyle tanınıyor.
Çinli yapay zeka girişimleri şu anda, finansörler ilerlemelerini paraya çevirme yetenekleri konusunda emin olmadıkları için, yakın zamanda 157 milyar dolar değerleme alan OpenAI gibi ABD şirketlerinin değerinin çok altında değerleniyor. Şiddetli rekabet, yapay zeka model sağlayıcıları arasında bir fiyat savaşına yol açtı.
Pekin merkezli Zhipu AI, bu ay yapılan son finansman turunda yaklaşık 3 milyar dolar değerleme aldı. Yatırım bankacılarının şirkete istediği değerlemeyi almasının pek olası olmadığını söylemesinin ardından, 2025'in ikinci yarısında halka açılma planını erteledi. Zhipu, Kasım sonunda yapay zeka ajanını tanıttı ve Temmuz ayında OpenAI'ın Sora'sına benzer bir video üretme modeli piyasaya sürdü.
Pekin merkezli bir yapay zeka model şirketinin eski yapay zeka altyapı yöneticisi Howard Huang, Çin sektörünü prangalarla dans etmeye çalışan insanlara benzetti. "İyi olduğumuz şeylere odaklanmak hayatta kalmanın ve muhtemelen kazanmanın tek fırsatı" dedi.
Member discussion