Есть что-то удовлетворительное и глубоко странное, когда LLM сообщает, что он исправил 37 из 41 неудачных тестов (улучшение на 90%), а затем спрашивает, что делать дальше, и правильно интерпретирует "Вперед!"
20,57K