We hebben ons @LiquidAI_ LFM2-350M-model 1400x verder getraind dan "compute optimal"
> Chinchilla schaalwetten: ~20 tokens per parameter
> LFM2-350M: ~28.000 tokens per parameter (1400x meer)
Waarom?
Omdat Chinchilla alleen betrekking heeft op trainingscompute, terwijl wij ons zorgen maken over de kosten van inferentie.