Die nächste Generation von LLMs ist wirklich anfällig für Unternehmensspionage. Die Belohnungsfunktionen, die funktionieren, insbesondere die, die helfen, schneller zu konvergieren, passen in eine einzige Python-Datei. Die Idee kann in einem Gespräch im Café geäußert werden. Das war im Pretrain-Regime nicht der Fall.
7,5K