TurboQuant
1 yazı bu etiketle etiketlendi.
TurboQuant, LLM KV önbelleğini doğruluk kaybı olmadan 3 bite sıkıştıran Google Research algoritmasıdır. H100'lerde 8x hız artışı sağlar, eğitim gerektirmez.
1 yazı bu etiketle etiketlendi.
TurboQuant, LLM KV önbelleğini doğruluk kaybı olmadan 3 bite sıkıştıran Google Research algoritmasıdır. H100'lerde 8x hız artışı sağlar, eğitim gerektirmez.