Google malum TurboQuant adını verdiği bir sıkıştırma teknolojisi tanıttı. Büyük dil modellerinin KV cache belleğini bazı senaryolarda 6 kata kadar sıkıştırabiliyor.
KV cache denen şey, dil modellerinin uzun bağlam pencerelerinde konuşma geçmişini tuttuğu bellek alanı. Bağlam penceresi büyüdükçe alan da büyüyor, ciddi bellek tüketiyor.