następna generacja LLM-ów jest naprawdę podatna na szpiegostwo korporacyjne. Funkcje nagrody, które działają, szczególnie te, które pomagają szybciej zbiegać, mieszczą się w jednym pliku python. Pomysł można przedstawić podczas rozmowy w kawiarni. Tak nie było w reżimie pretreningowym.
7,5K