les LLMs de nouvelle génération sont vraiment vulnérables à l'espionnage industriel. Les fonctions de récompense qui fonctionnent, en particulier celles qui aident à converger plus rapidement, tiennent dans un seul fichier python. L'idée peut être exprimée lors d'une conversation dans un café. Ce n'était pas le cas dans le régime de pré-entraînement.
7,5K