Entrenamos nuestro modelo LFM2-350M de @LiquidAI_ 1400 veces más allá de "óptimo computacional" > Leyes de escalado de Chinchilla: ~20 tokens por parámetro > LFM2-350M: ~28,000 tokens por parámetro (1400 veces más) ¿Por qué? Porque Chinchilla solo se preocupa por el cómputo de entrenamiento, mientras que nosotros nos preocupamos por el costo de inferencia.