Posts

Showing posts with the label algoritme

TurboQuant het nieuwe compressie algoritme voor AI modellen van Google

Google Research heeft een belangrijke doorbraak in compressie onthuld, genaamd TurboQuant (maart 2026), die het geheugengebruik van de Key-Value (KV) cache van AI tot wel zes keer vermindert zonder dat dit ten koste gaat van de nauwkeurigheid. Dit algoritme maakt aanzienlijk snellere inferentie mogelijk (acht keer sneller) en stelt enorme AI-modellen in staat om op veel minder hardware te draaien, wat een cruciale verschuiving naar efficiëntie betekent. Belangrijkste details van de doorbraak van TurboQuant Wat het doet Comprimeert de KV-cache, het "werkgeheugen" van een AI dat context opslaat in plaats van de modelgewichten zelf, waardoor hertraining of finetuning overbodig wordt. Prestaties Bereikt een reductie tot wel zes keer in KV-cachegeheugen en acht keer snellere aandachtsberekening, zelfs bij 3,5 bits per kanaal. Impact op lokale AI Maakt het mogelijk om grote modellen te draaien op consumentenhardware (bijv. Mac Mini) met meer dan 100.000 tokenconversaties. Impact op...