le LLM di nuova generazione sono davvero vulnerabili all'industria della spionaggio aziendale. Le funzioni di ricompensa che funzionano, specialmente quelle che aiutano a convergere più velocemente, si adattano in un singolo file python. L'idea può essere espressa in una conversazione al bar. Questo non era il caso nel regime di pre-addestramento.
7,51K