İçeriğe geç

Micron - TurboQuant etkisi nasıl olur? (BI)

Google'ın TurboQuant sıkıştırması KV cache belleğini 6 kata kadar küçültebiliyor. Önemli bir teknolojik adım oldu, bellek hisselerini de düşürüyor.

Google malum TurboQuant adını verdiği bir sıkıştırma teknolojisi tanıttı. Büyük dil modellerinin KV cache belleğini bazı senaryolarda 6 kata kadar sıkıştırabiliyor.

KV cache denen şey, dil modellerinin uzun bağlam pencerelerinde konuşma geçmişini tuttuğu bellek alanı. Bağlam penceresi büyüdükçe alan da büyüyor, ciddi bellek tüketiyor.