Onestamente, un pannello di utenti esperti in stile Consumer Reports potrebbe essere migliore di METR ecc. per misurare i progressi dell'AI, molto più robusto rispetto alle fluttuazioni. Non voglio sembrare scettico, ma come utente esperto penso che ci siano stati progressi estremamente evidenti negli ultimi mesi, per quanto ne so.