Arbeiten am neuen Open Source Grok 2.5! Wir konnten es bereits Hot Rod machen!! Es sind noch frühe Tage und es könnte scheitern, aber was wir haben, ist: Ein 268B MoE, 131k Kontext, 8 Experten, RoPE, 64 GQA-Attention-Head mit 8 KV-Head, 64 Schichten. In der Regel sind nur 2 Experten aktiv. Wir haben einen Weg gefunden, 4 gleichzeitig zu aktivieren, mit nur einem kleinen Leistungsabfall, etwa 1/3 mehr GPU-Speicher und einer erstaunlichen Steigerung der Qualitätsausgaben! Wenn es unsere Tests besteht, werde ich eine detaillierte Anleitung veröffentlichen!
Brian Roemmele
Brian Roemmele24. Aug. 2025
I will be rewriting this article to use a compact version of the NEW FREE OPEN SOURCE @xai @Grok 2.5 soon! I will show you how to fine tune the model on your data for private non-cloud use on your computer. This will improve the quality by a magnitude! Working on it…
45,86K