neste generasjons LLM-er er virkelig sårbare for bedriftsspionasje. Belønningsfunksjonene som fungerer, spesielt de som hjelper til med å konvergere raskere, passer i en enkelt python-fil. Ideen kan sies på en kaffebarsamtale. Dette var ikke tilfelle i pretrain-regieme
7,51K