os LLMs da próxima geração são realmente vulneráveis à espionagem corporativa. As funções de recompensa que funcionam, especialmente aquelas que ajudam a convergir mais rapidamente, cabem em um único arquivo python. A ideia pode ser dita em uma conversa de café. Este não foi o caso no pré-trem
7,51K