Am antrenat modelul nostru @LiquidAI_ LFM2-350M cu 1400x dincolo de "calcul optim" > Legile de scalare Chinchilla: ~20 de jetoane per param > LFM2-350M: ~28.000 de jetoane per param (de 1400 ori mai mult) De ce? Pentru că Chinchilla se referă doar la calculul de antrenament, în timp ce ne pasă de costul inferenței