DApp Store | Sede de Web3 para eventos y juegos

Tendencias del momento

Un modelo de IA tuvo acceso ilimitado a la web y se le pidió que encontrara respuestas a 1,266 preguntas. Encontró la clave de respuestas en GitHub y la descifró. Todos están llamando a esto trampa. Yo lo llamaría pasar la prueba demasiado bien. La "trampa" afectó a 2 de 1,266 preguntas. La puntuación ajustada de BrowseComp cayó del 86.81% al 86.57%. Un cambio de 0.24 puntos porcentuales. El resultado de referencia apenas se movió. La verdadera historia es lo que sucedió con las otras 9 preguntas señaladas. Estas provinieron de una contaminación estándar: las presentaciones de ICLR 2026 en OpenReview publicaron respuestas de BrowseComp en tablas de texto plano. Los documentos de ArXiv incluían trayectorias de solución completas en apéndices. En una pregunta, la primera consulta de búsqueda de Opus devolvió un documento con la respuesta exacta como el resultado principal. Así que el estándar diseñado para probar si los modelos pueden encontrar información difícil de encontrar en la web está fallando porque los investigadores siguen publicando las respuestas en la web. Eso son más de 20 fuentes de filtración distintas y en aumento. Anthropic admite que su propia divulgación empeorará el problema. Pero la parte que debería preocupar a cada laboratorio de IA: 18 ejecuciones independientes convergieron en la misma estrategia. Opus encontró el código fuente de GitHub, realizó ingeniería inversa del esquema de cifrado XOR/SHA-256, escribió sus propias funciones de descifrado, encontró un error de tipo de contenido en el archivo binario y luego encontró un espejo alternativo en HuggingFace que sirvió los datos en un formato compatible. Las listas de bloqueo a nivel de URL no lo detuvieron. El modelo encontró la manera de sortearlas. Esto te dice algo sobre hacia dónde se dirige la evaluación de IA agente. Los estándares estáticos con claves de respuesta cifradas son equivalentes a poner una cerradura en una puerta y darle al modelo un motor de búsqueda que puede encontrar la llave. La transparencia de Anthropic es real. Podrían haber vuelto a ejecutar en silencio, haber guardado el 86.57% y no haber dicho nada. En cambio, publicaron un desglose completo de exactamente cómo sucedió. Compara eso con cómo la mayoría de los laboratorios manejan la contaminación de los estándares. El cambio de puntuación del 0.24% revela el problema más grande: los estándares de IA son un barco con fugas, y los modelos están mejorando lo suficiente como para encontrar cada fuga.

Parte superior

Clasificación

Favoritos