Мы обучили нашу модель LFM2-350M от @LiquidAI_ на 1400 раз больше, чем "оптимальные вычисления"
> Законы масштабирования Chinchilla: ~20 токенов на параметр
> LFM2-350M: ~28,000 токенов на параметр (в 1400 раз больше)
Почему?
Потому что Chinchilla касается только вычислений для обучения, в то время как нас интересует стоимость вывода.