Treinamos nosso modelo @LiquidAI_ LFM2-350M 1400x além do "cálculo ideal" > Leis de escala de chinchila: ~ 20 tokens por parâmetro > LFM2-350M: ~28.000 tokens por parâmetro (1400x mais) Por que? Porque a Chinchilla diz respeito apenas à computação de treinamento, enquanto nos preocupamos com o custo de inferência