Det er noe tilfredsstillende, og dypt rart, når en LLM rapporterer at den har fikset 37 av 41 mislykkede tester (en forbedring på 90 %) og deretter spør hva de skal gjøre videre, og tolker riktig "Fremover!"
18,83K