Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Jeffrey Emanuel
Me perdí un poco en todos los acrónimos y la jerga aquí, así que le pedí a Claude que lo explicara sin usar ningún acrónimo y ahora todo tiene mucho sentido (tldr; ancho de banda ⟹ simplicidad):
Esta es una discusión técnica fascinante sobre el entrenamiento de grandes modelos de lenguaje a escala.
La conversación central
Jingyuan Liu está expresando su sorpresa al descubrir que no necesita ciertas técnicas de optimización complejas cuando se usan TPU (Unidades de procesamiento tensorial, los chips de IA especializados de Google) frente a GPU (Unidades de procesamiento de gráficos, generalmente los chips de NVIDIA).
Explicación de conceptos técnicos clave:
Tipos de hardware:
•GPU (Unidad de procesamiento de gráficos): Originalmente diseñada para gráficos, ahora muy utilizada para IA. NVIDIA domina este mercado.
• TPU (Tensor Processing Unit): los chips diseñados a medida de Google específicamente para el aprendizaje automático.
Estrategias de paralelismo:
Al entrenar modelos masivos de IA, debe dividir el trabajo en muchos chips. Hay varias formas de hacer esto:
1) Paralelismo de datos (DP): cada chip procesa diferentes lotes de datos con la misma copia del modelo
2) Paralelismo tensorial (TP): Las operaciones matemáticas del modelo se dividen en chips
3) Paralelismo de tubería (PP): Diferentes capas del modelo se colocan en diferentes chips, creando una tubería
El desafío técnico que se está discutiendo:
El problema de la pérdida auxiliar: al entrenar modelos muy grandes, a menudo se agregan "pérdidas auxiliares" (objetivos de entrenamiento adicionales) en las capas intermedias para ayudar a que los gradientes fluyan mejor a través de la red. Bajo las restricciones PPVP (Paralelismo de canalización con partición de variables), esto se vuelve complejo porque:
•Necesitas hacer "todo f todo b" (todos los pases hacia adelante, luego todos los pases hacia atrás)
•Esto es un desafío para el uso máximo de memoria porque tiene que almacenar resultados intermedios
Innovación de DeepSeek: Desarrollaron un diseño de "sesgo sin aux" que aparentemente evita la necesidad de estas pérdidas auxiliares sin dejar de entrenar de manera efectiva.
La sorprendente revelación:
El experto senior le dijo a Jingyuan que con TPU a escala K2 o DSV3 (estas son configuraciones de clúster con cientos o miles de chips), puede lograr una excelente MFU (utilización de modelos FLOP, básicamente la eficiencia con la que está usando el hardware) SIN usar el paralelismo de tuberías.
¿Por qué es esto sorprendente?
•El paralelismo de canalización generalmente se considera esencial para la capacitación a gran escala
• Es una técnica compleja que requiere una optimización cuidadosa
• Poder evitarlo simplifica todo significativamente
La explicación de Horace He:
Explica POR QUÉ esto es posible con los TPU:
La ventaja del ancho de banda: los TPU y los clústeres NVIDIA de gama alta (como NVL72, la última configuración de 72 GPU de NVIDIA con interconexiones NVLink) tienen un ancho de banda tan alto entre chips que pueden manejar los requisitos de comunicación sin paralelismo de tuberías.
La idea clave:
•El paralelismo de canalización es necesario principalmente cuando tiene "cuellos de botella en las comunicaciones de DP" (limitado por la rapidez con la que puede comunicarse durante el entrenamiento paralelo de datos)
•Si tiene suficiente ancho de banda en un dominio lo suficientemente grande (clúster interconectado), puede utilizar estrategias de paralelismo más sencillas
•Esto funciona "durante mucho tiempo", lo que significa que puede entrenar incluso modelos muy grandes sin alcanzar los límites.
La intuición:
Piense en ello como un sistema de carreteras:
•Los clústeres de GPU tradicionales son como tener carreteras estrechas entre ciudades, por lo que necesita un enrutamiento complejo (paralelismo de canalización) para evitar atascos de tráfico
• Los clústeres de TPU o las GPU conectadas a NVLink son como tener superautopistas masivas: puede enviar todo directamente sin un enrutamiento sofisticado
Esto es un gran problema porque el paralelismo de canalización es complejo de implementar, depurar y optimizar. Ser capaz de evitarlo sin dejar de lograr una alta eficiencia hace que todo el proceso de entrenamiento sea mucho más simple y confiable.
La discusión destaca cómo los avances en la tecnología de interconexión de hardware (los "caminos" entre chips) pueden cambiar fundamentalmente las estrategias de software necesarias para un entrenamiento eficiente de IA.

24.31K
Me perdí un poco en todos los acrónimos y la jerga aquí, así que le pedí a Claude que lo explicara sin usar ningún acrónimo y ahora todo tiene mucho sentido (tldr; ancho de banda ⟹ simplicidad):
Esta es una discusión técnica fascinante sobre el entrenamiento de grandes modelos de lenguaje a escala.
La conversación central
Jingyuan Liu está expresando su sorpresa al descubrir que no necesita ciertas técnicas de optimización complejas cuando se usan TPU (Unidades de procesamiento tensorial, los chips de IA especializados de Google) frente a GPU (Unidades de procesamiento de gráficos, generalmente los chips de NVIDIA).
Explicación de conceptos técnicos clave:
Tipos de hardware:
•GPU (Unidad de procesamiento de gráficos): Originalmente diseñada para gráficos, ahora muy utilizada para IA. NVIDIA domina este mercado.
• TPU (Tensor Processing Unit): los chips diseñados a medida de Google específicamente para el aprendizaje automático.
Estrategias de paralelismo:
Al entrenar modelos masivos de IA, debe dividir el trabajo en muchos chips. Hay varias formas de hacer esto:
1Paralelismo de datos (DP): cada chip procesa diferentes lotes de datos con la misma copia del modelo
2Paralelismo tensorial (TP): Las operaciones matemáticas del modelo se dividen en chips
3Paralelismo de canalización (PP): Diferentes capas del modelo se colocan en diferentes chips, creando una canalización
El desafío técnico que se está discutiendo:
El problema de la pérdida auxiliar: al entrenar modelos muy grandes, a menudo se agregan "pérdidas auxiliares" (objetivos de entrenamiento adicionales) en las capas intermedias para ayudar a que los gradientes fluyan mejor a través de la red. Bajo las restricciones PPVP (Paralelismo de canalización con partición de variables), esto se vuelve complejo porque:
•Necesitas hacer "todo f todo b" (todos los pases hacia adelante, luego todos los pases hacia atrás)
•Esto es un desafío para el uso máximo de memoria porque tiene que almacenar resultados intermedios
Innovación de DeepSeek: Desarrollaron un diseño de "sesgo sin aux" que aparentemente evita la necesidad de estas pérdidas auxiliares sin dejar de entrenar de manera efectiva.
La sorprendente revelación:
El experto senior le dijo a Jingyuan que con TPU a escala K2 o DSV3 (estas son configuraciones de clúster con cientos o miles de chips), puede lograr una excelente MFU (utilización de modelos FLOP, básicamente la eficiencia con la que está usando el hardware) SIN usar el paralelismo de tuberías.
¿Por qué es esto sorprendente?
•El paralelismo de canalización generalmente se considera esencial para la capacitación a gran escala
• Es una técnica compleja que requiere una optimización cuidadosa
• Poder evitarlo simplifica todo significativamente
La explicación de Horace He:
Explica POR QUÉ esto es posible con los TPU:
La ventaja del ancho de banda: los TPU y los clústeres NVIDIA de gama alta (como NVL72, la última configuración de 72 GPU de NVIDIA con interconexiones NVLink) tienen un ancho de banda tan alto entre chips que pueden manejar los requisitos de comunicación sin paralelismo de tuberías.
La idea clave:
•El paralelismo de canalización es necesario principalmente cuando tiene "cuellos de botella en las comunicaciones de DP" (limitado por la rapidez con la que puede comunicarse durante el entrenamiento paralelo de datos)
•Si tiene suficiente ancho de banda en un dominio lo suficientemente grande (clúster interconectado), puede utilizar estrategias de paralelismo más sencillas
•Esto funciona "durante mucho tiempo", lo que significa que puede entrenar incluso modelos muy grandes sin alcanzar los límites.
La intuición:
Piense en ello como un sistema de carreteras:
•Los clústeres de GPU tradicionales son como tener carreteras estrechas entre ciudades, por lo que necesita un enrutamiento complejo (paralelismo de canalización) para evitar atascos de tráfico
• Los clústeres de TPU o las GPU conectadas a NVLink son como tener superautopistas masivas: puede enviar todo directamente sin un enrutamiento sofisticado
Esto es un gran problema porque el paralelismo de canalización es complejo de implementar, depurar y optimizar. Ser capaz de evitarlo sin dejar de lograr una alta eficiencia hace que todo el proceso de entrenamiento sea mucho más simple y confiable.
La discusión destaca cómo los avances en la tecnología de interconexión de hardware (los "caminos" entre chips) pueden cambiar fundamentalmente las estrategias de software necesarias para un entrenamiento eficiente de IA.

3.61K
Estoy un poco sorprendido de que nadie haya creado aún un servidor MCP de Dwarf Fortress que pueda permitir a un agente como Codex o Claude Code controlar eficientemente el juego y monitorear el estado y el progreso.
Realmente nunca lo jugué yo mismo, solo lo descargué y lo revisé brevemente hace unos 10 años, pero disfruté leyendo sobre él.
Parece que sería una muy buena prueba de un LLM para ver cuánto tiempo podría mantener a los enanos vivos y prósperos.
Debido a que cada juego eventualmente resulta en una catástrofe en cascada que hace que todos los enanos mueran, debería haber un punto de parada natural, lo que lo convierte en un buen candidato de referencia. Al menos eso es lo que entiendo (el lema de los jugadores es "Perder es divertido").
Hacer un buen trabajo con estos juegos dependería de la precisión de las llamadas de herramientas y la coherencia sostenida de las tareas largas, además de la capacidad de monitorear y comprender la dinámica de un sistema complejo y realizar intervenciones oportunas que anticipen y contrarresten los problemas.
Y debido a que es nativo de la terminal, podría transmitirse y procesarse de manera eficiente utilizando tokens regulares sin necesidad de procesamiento de imágenes multimodal, lo que lo haría mucho más eficiente que otros juegos.
Además, sabe que ningún laboratorio de IA se ha entrenado para esto (¡todavía!), Por lo que no está contaminado por "benchmaxxing".

4.14K
Una cosa divertida que puedes hacer cuando necesitas esperar unos minutos es usar tu teléfono para hacerle a Claude Opus la siguiente pregunta sobre alguna disciplina o campo aleatorio:
"¿Cuál dirías que es LA idea central o el truco analítico de la cristalografía?"
Reemplaza la cristalografía con cualquier cosa que se te ocurra. Hasta ahora, he intentado:
QED; el Modelo Estándar; Bioquímica; Probabilidad; Teoría evolutiva; y muchos más.
Hay algo en forzar al modelo a hacer lo imposible, a condensar un campo vasto y complejo en "un truco extraño", que lo hace realmente buscar el mejor principio unificador profundo en el campo y luego articularlo sucintamente.
Esto tiende a ser algo obvio para los profesionales, pero es muy probable que sea desconocido para la mayoría de las personas con un interés pasajero en el tema.
Curiosamente, también puede presionar repetidamente el botón "reintentar" con el mismo mensaje y, a veces, obtener explicaciones muy diferentes, pero generalmente muy fascinantes.
Ya he aprendido MUCHO al hacer esto, y podría ser la mayor "comprensión por minuto" que he encontrado en cualquier aprendizaje autodirigido.
Porque no son solo datos divertidos o cositas interesantes. Son, por construcción, ideas penetrantes y unificadoras que unen una gran cantidad de teoría y fenómenos observados en el mundo.
¡Ciertamente es mucho más ancho de banda que ver otro video explicativo de YouTube con animaciones y anuncios de Brilliant / KiwiCo! No es que haya nada malo en eso.




8.07K
La idea de que ha habido tal "éxodo de talento" de OpenAI recientemente que ya no están posicionados para ser un líder en el espacio es tan equivocada y errónea como la idea de que GPT-5 "fue un gran fracaso y el modelo no es tan bueno y es muy incremental".
GPT-5 Pro no solo es el modelo más inteligente del mundo ahora en gran medida en las tareas más desafiantes del mundo real (especialmente las tareas de codificación, que tienen la mayor importancia económica ahora), sino que la nueva herramienta codex cli de OpenAI está increíblemente bien ejecutada.
Pasaron de un distante tercer lugar en la codificación de herramientas cli a tener lo que podría decirse que es el mejor ahora (tenga en cuenta que todavía me gusta y uso Claude Code, ¡no es uno u otro!), con el mejor rendimiento, la latencia más baja, etc. porque está programado en Rust.
Y ahora esta herramienta cli se combina con el mejor modelo de codificación que tiene la mejor confiabilidad de llamada de herramientas y la mejor coherencia de tareas largas, con la menor cantidad de alucinaciones.
Y no hace falta decir que su aplicación iOS también es dramáticamente mejor que todas las demás aplicaciones de IA en términos de pulido y características. ¡La aplicación Claude es solo la aplicación web en una caja de arena de Safari! Y su aplicación web también sigue siendo la mejor. Cosas como la búsqueda funcionan mejor que en otras aplicaciones. Bloqueo y tacleada básicos.
Entonces, sí. Algunas personas muy inteligentes como Ilya y John Schulman se fueron a otras empresas. Pero todavía tienen un equipo técnico absolutamente increíble con personas de producto increíblemente buenas y habilidades de ingeniería increíbles.
No dejes que tu disgusto por Altman te ciegue a lo obvio. Cada vez que veo a otra persona hablar de lo malo que es GPT-5, me estremezco, porque la persona está demostrando que no puede pensar por sí misma basándose en la evidencia y la razón, y se memeó para que pensara una opinión (y la soltara en línea) porque cree que la hace parecer inteligente.
34.06K
¿Qué tan genial es que cada uno de esos pequeños chips tenga 8 terabytes de almacenamiento súper rápido? Y puede conectarlos a ambos en esa carcasa azul y obtener 20 Gbps a través de USB 3.3 (no tengo puertos USB 4 y todas mis ranuras pci-e están ocupadas por GPU)
Vivimos en una época de tanta abundancia.

3.25K
Como actualización de mis dos hilos recientes sobre el uso de GPT-5 Pro para iniciar un proceso de descubrimiento de teorías innovadoras que combinan aplicaciones novedosas de matemáticas avanzadas en los casos de uso de IA, hice que el modelo creara implementaciones de demostración en Python usando Jax y Numpy para cada una de las 11 ideas.
Luego los junté en un proyecto y agregué una buena CLI para ejecutarlos, y una serie de pruebas de extremo a extremo que midieron si el código es matemáticamente correcto, verifican que el código tenga las propiedades matemáticas que queremos y, finalmente, si hace algo útil en comparación con los enfoques estándar actuales.
Usé codex CLI con GPT-5 para integrar todo y corregir errores. Enlazaré al repositorio, que contiene documentación detallada para todo el proyecto y luego reseñas para cada una de las 11 demostraciones que contienen toda la salida generada por el modelo durante el proceso.
3.84K
Vaya, finalmente pude probar la nueva versión de Codex CLI de OpenAI (su respuesta a Claude Code).
La última vez intenté usar codex (tenga en cuenta que esto es diferente de su agente de codificación alojado también llamado codex, lo cual es extremadamente confuso; Estoy hablando ahora de la herramienta que ejecuta localmente en su máquina en la terminal), fue escrita como una aplicación Nodejs / Typescript, y realmente apesta:
- solo podía acceder a modelos más débiles como O4-mini o su variante para Codex, confusamente también llamada Codex (¿en serio?)
- mucho peor UI/UX que Claude Code
- mucho peor en la codificación como resultado de un peor modelo, peores herramientas, peor flujo de agentes.
- Te obligaba a dar permiso para todo, por lo que tenías que cuidarlo todo el tiempo, lo que lo hacía mucho menos útil porque no podías ejecutar activamente un montón de ellos en paralelo fácilmente.
- Sin embargo, tal vez eso fue algo bueno, porque con mucho, el mayor problema fue que hizo cosas súper imprudentes y destructivas; era mucho más arrogante que CC.
En última instancia, es por eso que dejé de usarlo de inmediato, ya que decidió hacer un "git reset --hard HEAD" sin esconderlo primero, y perdí algo de trabajo. Nunca más, pensé.
Bueno, finalmente pude probar la nueva versión de rust que usa GPT-5 y que puede usar su suscripción GPT Pro existente en lugar de una clave API, y esto es mucho mejor que es impactante.
En primer lugar, simplemente no hay sustituto para el código compilado rápido cuando se trata de herramientas interactivas como esta.
El hecho de que esté escrito en óxido significa que no hay ningún retraso en la entrada del teclado, y tampoco artefactos extraños como los que tienes en CC donde el retroceso no funciona bien y la entrada es irregular y lenta porque está escrita en un lenguaje interpretado que es cien veces más lento para cosas como esta.
Lidiar con el retraso y el bloqueo constantes no solo es más lento, es mental y tal vez incluso emocionalmente agotador y agotador, al menos para mí cuando uso estas cosas durante horas y horas. Es una sensación horrible odiar y resentir tus herramientas, incluso cuando dependes de ellas para hacer tu trabajo.
Realmente espero que esto eleve el listón de todas estas herramientas y convenza a Anthropic y Google y otros para que también usen rust (o C++, Zig, lo que sea).
Pero la gran mejora es, obviamente, el modelo; con un modelo peor que no es confiable en la llamada de herramientas y que pierde coherencia en tareas más largas, nada de la agilidad de Rust valdría la pena.
Pero si me sigues aquí, sabrás que he estado asombrado por las habilidades de codificación y la destreza para llamar a las herramientas de GPT-5 Thinking desde unos 15 minutos después de que salió, aunque lo he estado usando principalmente desde la pestaña de agente de Cursor.
La conclusión es que este nuevo códice de óxido se ha convertido repentinamente en un competidor verdaderamente formidable de CC, y deberías probarlo.
Tendré que ver cuánto uso me permiten salirme con la mía en mi suscripción GPT Pro de $ 200 / mes, pero si tengo que obtener un par más, valdrá la pena.
Tenga en cuenta que no he dejado de usar CC. Me gusta usar ambos juntos. Y lo creas o no, todavía uso Cursor.
Las personas deben dejar de buscar una sola herramienta que reemplace a todas las demás y aceptar que diferentes herramientas tienen diferentes fortalezas y debilidades, y obtener los mejores resultados aprendiendo todo eso intuitivamente del uso constante.
De todos modos, hazte un favor y consíguelo ahora. La forma más fácil es hacer este comando (tenga en cuenta que esto le dará la versión de rust, a pesar de lo confuso que es usar bun/npm para esto):
Bollo I -G @openai/códice
8.62K
Vaya, finalmente pude probar la nueva versión de Codex CLI de OpenAI (su respuesta a Claude Code).
La última vez intenté usar codex (tenga en cuenta que esto es diferente de su agente de codificación alojado también llamado codex, lo cual es extremadamente confuso; Estoy hablando ahora de la herramienta que ejecuta localmente en su máquina en la terminal), fue escrita como una aplicación Nodejs / Typescript, y realmente apesta:
- solo podía acceder a modelos más débiles como O4-mini o su variante para Codex, confusamente también llamada Codex (¿en serio?)
- mucho peor UI/UX que Claude Code
- mucho peor en la codificación como resultado de un peor modelo, peores herramientas, peor flujo de agentes.
- Te obligaba a dar permiso para todo, por lo que tenías que cuidarlo todo el tiempo, lo que lo hacía mucho menos útil porque no podías ejecutar activamente un montón de ellos en paralelo fácilmente.
- Sin embargo, tal vez eso fue algo bueno, porque con mucho, el mayor problema fue que hizo cosas súper imprudentes y destructivas; era mucho más arrogante que CC. En última instancia, esa es la razón por la que dejé de usarlo de inmediato, ya que decidió hacer un "reset --hard HEAD" sin esconder primero, y perdí algo de trabajo. Nunca más, pensé.
Bueno, finalmente pude probar la nueva versión de rust que usa GPT-5 y que puede usar su suscripción GPT Pro existente en lugar de una clave API, y esto es mucho mejor que es impactante.
En primer lugar, simplemente no hay sustituto para el código compilado rápido cuando se trata de herramientas interactivas como esta.
El hecho de que esté escrito en óxido significa que no hay ningún retraso en la entrada del teclado, y tampoco artefactos extraños como los que tienes en CC donde el retroceso no funciona bien y la entrada es irregular y lenta porque está escrita en un lenguaje interpretado que es cien veces más lento para cosas como esta.
Lidiar con el retraso y el bloqueo constantes no solo es más lento, es mental y tal vez incluso emocionalmente agotador y agotador, al menos para mí cuando uso estas cosas durante horas y horas. Es una sensación horrible odiar y resentir tus herramientas, incluso cuando dependes de ellas para hacer tu trabajo.
Realmente espero que esto eleve el listón de todas estas herramientas y convenza a Anthropic y Google y otros para que también usen rust (o C++, Zig, lo que sea).
Pero la gran mejora es, obviamente, el modelo; con un modelo peor que no es confiable en la llamada de herramientas y que pierde coherencia en tareas más largas, nada de la agilidad de Rust valdría la pena.
Pero si me sigues aquí, sabrás que he estado asombrado por las habilidades de codificación y la destreza para llamar a las herramientas de GPT-5 Thinking desde unos 15 minutos después de que salió, aunque lo he estado usando principalmente desde la pestaña de agente de Cursor.
La conclusión es que este nuevo códice de óxido se ha convertido repentinamente en un competidor verdaderamente formidable de CC, y deberías probarlo.
Tendré que ver cuánto uso me permiten salirme con la mía en mi suscripción GPT Pro de $ 200 / mes, pero si tengo que obtener un par más, valdrá la pena.
Tenga en cuenta que no he dejado de usar CC. Me gusta usar ambos juntos. Y lo creas o no, todavía uso Cursor.
Las personas deben dejar de buscar una sola herramienta que reemplace a todas las demás y aceptar que diferentes herramientas tienen diferentes fortalezas y debilidades, y obtener los mejores resultados aprendiendo todo eso intuitivamente del uso constante.
De todos modos, hazte un favor y consíguelo ahora. La forma más fácil es hacer este comando (tenga en cuenta que esto le dará la versión de rust, a pesar de lo confuso que es usar bun/npm para esto):
Bollo I -G @openai/códice
728
Estoy absolutamente convencido de que los modelos de IA más inteligentes que existen ahora, GPT-5 Pro y Grok4 Heavy, ya son lo suficientemente inteligentes, y seguramente lo suficientemente conocedores de las matemáticas y la IA, para concebir y desarrollar importantes descubrimientos teóricos y prácticos, dado el tipo correcto de indicaciones inteligentes.
48.01K
Populares
Ranking
Favoritas
Onchain en tendencia
Tendencia en X
Principales fondos recientes
Más destacadas