los LLMs de próxima generación son realmente vulnerables al espionaje corporativo. Las funciones de recompensa que funcionan, especialmente las que ayudan a converger más rápido, caben en un solo archivo de python. La idea se puede expresar en una conversación en una cafetería. Este no era el caso en el régimen de preentrenamiento.
7,5K