TurboQuant
1 yazı bu etiketle etiketlendi.
TurboQuant, büyük dil modellerinin KV önbelleğini doğruluk kaybı olmadan 3 bit'e sıkıştıran bir Google Research algoritmasıdır. H100 GPU'larda 8 kat hız artışı sağlar ve hiç eğitim gerektirmez.
1 yazı bu etiketle etiketlendi.
TurboQuant, büyük dil modellerinin KV önbelleğini doğruluk kaybı olmadan 3 bit'e sıkıştıran bir Google Research algoritmasıdır. H100 GPU'larda 8 kat hız artışı sağlar ve hiç eğitim gerektirmez.