Kuulen nyt muutamia kuiskauksia linnuilta, että sisäiset evalit ovat saaneet gpt5 hieman yli grok 4 Heavy. Evals kertoo mallille vain yhden puolen, mutta on utelias näkemään, saammeko merkittäviä agenttisia tai muita parannuksia.
277,33K