Yapay Zeka - Tokenizasyon cephesinde olup bitenler?

Son dönemde misafir yazarlarımız var. Misafir dediğime bakmayın tabi, dostlar. Dragonomi'ye değer veren ama en önemlisi dünyada olup bitenler hakkında düşünüp taşınanlar.

Son dönemde misafir yazarlarımız var. Misafir dediğime bakmayın tabi, dostlar. Dragonomi'ye değer veren ama en önemlisi dünyada olup bitenler hakkında düşünüp taşınanlar.

Uzatmayayım. Doktor Ömer yazdı, konu AI'ın tokenizasyon cephesindeki olup bitenler ✍️


Tokenizasyon Ve Yeni Transformer Mimarisi

Büyük dil modelleri bizim gibi metin okuyamaz, aslında sayılarla çalışır.

Tokenizasyon dediğimiz süreç, metinleri sayı dizilerine dönüştürür.

İşte bu boyutta yeni bir çığır açıldı.

Yeni mekanizma tokenizasyonun nasıl çalıştığını temelden değiştiriyor.

Daha basit bir yapı geliyor.

Anlatmaya şöyle başlamak lazım. Tokenizasyonu bir şefin yemek hazırlamasına benzetebiliriz.

Elindeki ham madde metindir, yani sebzelerdir.

Modelin anlayacağı hale getirmek için birkaç aşamadan geçer.

İlk aşama normalizasyon, yani sebzeleri yıkamak ve soymak gibidir.

Metindeki büyük harfleri küçültür, gereksiz boşlukları temizler.

"HELLO World" metni "hello world" haline gelir.

Sonraki aşama ön belirteçlemedir.

Temizlenmiş metni daha küçük parçalara ayırırız.

Şefin sebzeleri kabaca doğraması gibi.

"hello world" metni "hello" ve " world" olarak ikiye ayrılır.

Model aşaması, tokenizasyon algoritmasının devreye girdiği yerdir.

BPE, Unigram gibi algoritmalar bu parçaları modelin kelime dağarcığındaki sayılara, yani token ID'lerine dönüştürür.

Şefin kabaca doğradığı sebzeleri, tarifin gerektirdiği nihai boyutta kesmesi gibidir.

"hello" ve " world" parçaları [9906, 1917] gibi sayılara dönüşür.

Son olarak son işlemci devreye girer.

Modele cümlenin nerede başlayıp nerede bittiğini anlatmak için özel belirteçler ekler.

Tıpkı şefin yemeğe son dokunuş olarak tuz ve karabiber eklemesi gibi.

[9906, 1917] dizisi [1, 9906, 1917, 2] haline gelebilir.

Tokenizasyon işleminin motoru, tokenizers adında Rust tabanlı hızlı bir kütüphanedir.

Ancak tek başına yeterli değildir.

Sadece metni sayılara çevirir, modelin özel beklentilerini bilmez.

İşte burada transformers kütüphanesi devreye giriyor. Yani yeni mekanizma.

Ham tokenizasyon ile modelin ihtiyaçları arasında bir köprü kuruyor.

Ona modelin kurallarını öğretiyor.

Analojiye dönersek, tokenizers motoru malzemeleri mükemmel şekilde doğrar.

Transformers kütüphanesi ise o malzemeleri, modelin yani restoranın sunum kurallarına göre tabağa dizer.

Neden önemli diyeceksiniz?

Eski sistem, yani v4, kapalı bir kutu gibiydi.

Bir belirteçleyiciyi (tokenizer) aldığınızda, içinde ne olduğunu anlamak zordu.

Hangi algoritmayı kullanıyor, metni nasıl normalleştiriyor, bilemezdiniz.

Her model için biri yavaş (Python) diğeri hızlı (Rust) olmak üzere iki ayrı dosyası vardı.

Kod tekrarı, hatalar ve kafa karışıklığı yaratıyordu.

V4'ü hazır alınmış bir pastaya benzetebiliriz.

Tarifini göremez, içindeki malzemeleri kolayca değiştiremezsiniz.

V5 ise her şeyi değiştiriyor.

Mimarisi ile eğitilmiş veriyi (kelime dağarcığı) birbirinden ayırıyor.

V5, size pasta tarifi ve boş karıştırma kapları veriyor.

İçine ne girdiğini net bir şekilde görebilirsiniz.

İsterseniz kendi özel malzemelerinizi (kendi veri setinizi) kullanarak aynı tarife uygun yepyeni bir pasta yapabilirsiniz.

Artık her model için tek bir dosya ve tek bir hızlı Rust tabanlı altyapı var.

Kafa karışıklığı ortadan kalktı.

Bu bağlamda piyasa etkileri nedir diye de kafa yormak lazım.

V5'in getirdiği en büyük devrim, modele özgü belirteçleyicileri sıfırdan eğitebilme imkanıdır.

Daha iyi bir belirteçleyici, metni daha az sayıda tokene sıkıştırır.

Daha az token, daha düşük işlem maliyeti demektir.

Artık herkes kendi alanına özel belirteçleyiciler yaratabilir.

Hukuk metinlerini anlayan bir avukat, tıbbi raporları anlayan bir doktor gibi.

Bir şirket, kendi niş pazarı için rakiplerinden çok daha iyi performans gösteren bir yapay zeka ürünü geliştirebilir.

Özel veriler üzerinde eğitilmiş modeller, genel modellere göre çok daha isabetli sonuçlar verebilir.

Rekabette ciddi bir avantaj sağlar ve yapay zeka uygulamaları için yepyeni pazarlar açar.

Harika! Başarıyla kaydoldunuz.

Tekrar hoş geldiniz! Başarıyla oturum açtınız.

Dragonomi 'a başarıyla abone oldunuz.

Başarılı! Giriş yapmak için sihirli bağlantıyı e-postanızda kontrol edin.

Başarılı! Fatura bilgileriniz güncellendi.

Faturanız güncellenmedi.