Honnêtement, un panel d'utilisateurs avancés à la manière de Consumer Reports pourrait être meilleur que METR, etc. pour mesurer les progrès de l'IA, beaucoup plus robuste face aux fluctuations. Je ne veux pas paraître sceptique, en tant qu'utilisateur avancé, je pense qu'il y a eu des progrès extrêmement notables au cours des derniers mois, pour ce que ça vaut.