Tienda de dapps | Hub de Web3 para eventos y juegos

Temas en tendencia

Jeffrey Emanuel

Me perdí un poco en todos los acrónimos y la jerga aquí, así que le pedí a Claude que lo explicara sin usar ningún acrónimo y ahora todo tiene mucho sentido (tldr; ancho de banda ⟹ simplicidad): Esta es una discusión técnica fascinante sobre el entrenamiento de grandes modelos de lenguaje a escala. La conversación central Jingyuan Liu está expresando su sorpresa al descubrir que no necesita ciertas técnicas de optimización complejas cuando se usan TPU (Unidades de procesamiento tensorial, los chips de IA especializados de Google) frente a GPU (Unidades de procesamiento de gráficos, generalmente los chips de NVIDIA). Explicación de conceptos técnicos clave: Tipos de hardware: •GPU (Unidad de procesamiento de gráficos): Originalmente diseñada para gráficos, ahora muy utilizada para IA. NVIDIA domina este mercado. • TPU (Tensor Processing Unit): los chips diseñados a medida de Google específicamente para el aprendizaje automático. Estrategias de paralelismo: Al entrenar modelos masivos de IA, debe dividir el trabajo en muchos chips. Hay varias formas de hacer esto: 1) Paralelismo de datos (DP): cada chip procesa diferentes lotes de datos con la misma copia del modelo 2) Paralelismo tensorial (TP): Las operaciones matemáticas del modelo se dividen en chips 3) Paralelismo de tubería (PP): Diferentes capas del modelo se colocan en diferentes chips, creando una tubería El desafío técnico que se está discutiendo: El problema de la pérdida auxiliar: al entrenar modelos muy grandes, a menudo se agregan "pérdidas auxiliares" (objetivos de entrenamiento adicionales) en las capas intermedias para ayudar a que los gradientes fluyan mejor a través de la red. Bajo las restricciones PPVP (Paralelismo de canalización con partición de variables), esto se vuelve complejo porque: •Necesitas hacer "todo f todo b" (todos los pases hacia adelante, luego todos los pases hacia atrás) •Esto es un desafío para el uso máximo de memoria porque tiene que almacenar resultados intermedios Innovación de DeepSeek: Desarrollaron un diseño de "sesgo sin aux" que aparentemente evita la necesidad de estas pérdidas auxiliares sin dejar de entrenar de manera efectiva. La sorprendente revelación: El experto senior le dijo a Jingyuan que con TPU a escala K2 o DSV3 (estas son configuraciones de clúster con cientos o miles de chips), puede lograr una excelente MFU (utilización de modelos FLOP, básicamente la eficiencia con la que está usando el hardware) SIN usar el paralelismo de tuberías. ¿Por qué es esto sorprendente? •El paralelismo de canalización generalmente se considera esencial para la capacitación a gran escala • Es una técnica compleja que requiere una optimización cuidadosa • Poder evitarlo simplifica todo significativamente La explicación de Horace He: Explica POR QUÉ esto es posible con los TPU: La ventaja del ancho de banda: los TPU y los clústeres NVIDIA de gama alta (como NVL72, la última configuración de 72 GPU de NVIDIA con interconexiones NVLink) tienen un ancho de banda tan alto entre chips que pueden manejar los requisitos de comunicación sin paralelismo de tuberías. La idea clave: •El paralelismo de canalización es necesario principalmente cuando tiene "cuellos de botella en las comunicaciones de DP" (limitado por la rapidez con la que puede comunicarse durante el entrenamiento paralelo de datos) •Si tiene suficiente ancho de banda en un dominio lo suficientemente grande (clúster interconectado), puede utilizar estrategias de paralelismo más sencillas •Esto funciona "durante mucho tiempo", lo que significa que puede entrenar incluso modelos muy grandes sin alcanzar los límites. La intuición: Piense en ello como un sistema de carreteras: •Los clústeres de GPU tradicionales son como tener carreteras estrechas entre ciudades, por lo que necesita un enrutamiento complejo (paralelismo de canalización) para evitar atascos de tráfico • Los clústeres de TPU o las GPU conectadas a NVLink son como tener superautopistas masivas: puede enviar todo directamente sin un enrutamiento sofisticado Esto es un gran problema porque el paralelismo de canalización es complejo de implementar, depurar y optimizar. Ser capaz de evitarlo sin dejar de lograr una alta eficiencia hace que todo el proceso de entrenamiento sea mucho más simple y confiable. La discusión destaca cómo los avances en la tecnología de interconexión de hardware (los "caminos" entre chips) pueden cambiar fundamentalmente las estrategias de software necesarias para un entrenamiento eficiente de IA.

Me perdí un poco en todos los acrónimos y la jerga aquí, así que le pedí a Claude que lo explicara sin usar ningún acrónimo y ahora todo tiene mucho sentido (tldr; ancho de banda ⟹ simplicidad): Esta es una discusión técnica fascinante sobre el entrenamiento de grandes modelos de lenguaje a escala. La conversación central Jingyuan Liu está expresando su sorpresa al descubrir que no necesita ciertas técnicas de optimización complejas cuando se usan TPU (Unidades de procesamiento tensorial, los chips de IA especializados de Google) frente a GPU (Unidades de procesamiento de gráficos, generalmente los chips de NVIDIA). Explicación de conceptos técnicos clave: Tipos de hardware: •GPU (Unidad de procesamiento de gráficos): Originalmente diseñada para gráficos, ahora muy utilizada para IA. NVIDIA domina este mercado. • TPU (Tensor Processing Unit): los chips diseñados a medida de Google específicamente para el aprendizaje automático. Estrategias de paralelismo: Al entrenar modelos masivos de IA, debe dividir el trabajo en muchos chips. Hay varias formas de hacer esto: 1Paralelismo de datos (DP): cada chip procesa diferentes lotes de datos con la misma copia del modelo 2Paralelismo tensorial (TP): Las operaciones matemáticas del modelo se dividen en chips 3Paralelismo de canalización (PP): Diferentes capas del modelo se colocan en diferentes chips, creando una canalización El desafío técnico que se está discutiendo: El problema de la pérdida auxiliar: al entrenar modelos muy grandes, a menudo se agregan "pérdidas auxiliares" (objetivos de entrenamiento adicionales) en las capas intermedias para ayudar a que los gradientes fluyan mejor a través de la red. Bajo las restricciones PPVP (Paralelismo de canalización con partición de variables), esto se vuelve complejo porque: •Necesitas hacer "todo f todo b" (todos los pases hacia adelante, luego todos los pases hacia atrás) •Esto es un desafío para el uso máximo de memoria porque tiene que almacenar resultados intermedios Innovación de DeepSeek: Desarrollaron un diseño de "sesgo sin aux" que aparentemente evita la necesidad de estas pérdidas auxiliares sin dejar de entrenar de manera efectiva. La sorprendente revelación: El experto senior le dijo a Jingyuan que con TPU a escala K2 o DSV3 (estas son configuraciones de clúster con cientos o miles de chips), puede lograr una excelente MFU (utilización de modelos FLOP, básicamente la eficiencia con la que está usando el hardware) SIN usar el paralelismo de tuberías. ¿Por qué es esto sorprendente? •El paralelismo de canalización generalmente se considera esencial para la capacitación a gran escala • Es una técnica compleja que requiere una optimización cuidadosa • Poder evitarlo simplifica todo significativamente La explicación de Horace He: Explica POR QUÉ esto es posible con los TPU: La ventaja del ancho de banda: los TPU y los clústeres NVIDIA de gama alta (como NVL72, la última configuración de 72 GPU de NVIDIA con interconexiones NVLink) tienen un ancho de banda tan alto entre chips que pueden manejar los requisitos de comunicación sin paralelismo de tuberías. La idea clave: •El paralelismo de canalización es necesario principalmente cuando tiene "cuellos de botella en las comunicaciones de DP" (limitado por la rapidez con la que puede comunicarse durante el entrenamiento paralelo de datos) •Si tiene suficiente ancho de banda en un dominio lo suficientemente grande (clúster interconectado), puede utilizar estrategias de paralelismo más sencillas •Esto funciona "durante mucho tiempo", lo que significa que puede entrenar incluso modelos muy grandes sin alcanzar los límites. La intuición: Piense en ello como un sistema de carreteras: •Los clústeres de GPU tradicionales son como tener carreteras estrechas entre ciudades, por lo que necesita un enrutamiento complejo (paralelismo de canalización) para evitar atascos de tráfico • Los clústeres de TPU o las GPU conectadas a NVLink son como tener superautopistas masivas: puede enviar todo directamente sin un enrutamiento sofisticado Esto es un gran problema porque el paralelismo de canalización es complejo de implementar, depurar y optimizar. Ser capaz de evitarlo sin dejar de lograr una alta eficiencia hace que todo el proceso de entrenamiento sea mucho más simple y confiable. La discusión destaca cómo los avances en la tecnología de interconexión de hardware (los "caminos" entre chips) pueden cambiar fundamentalmente las estrategias de software necesarias para un entrenamiento eficiente de IA.

Vaya, finalmente pude probar la nueva versión de Codex CLI de OpenAI (su respuesta a Claude Code). La última vez intenté usar codex (tenga en cuenta que esto es diferente de su agente de codificación alojado también llamado codex, lo cual es extremadamente confuso; Estoy hablando ahora de la herramienta que ejecuta localmente en su máquina en la terminal), fue escrita como una aplicación Nodejs / Typescript, y realmente apesta: - solo podía acceder a modelos más débiles como O4-mini o su variante para Codex, confusamente también llamada Codex (¿en serio?) - mucho peor UI/UX que Claude Code - mucho peor en la codificación como resultado de un peor modelo, peores herramientas, peor flujo de agentes. - Te obligaba a dar permiso para todo, por lo que tenías que cuidarlo todo el tiempo, lo que lo hacía mucho menos útil porque no podías ejecutar activamente un montón de ellos en paralelo fácilmente. - Sin embargo, tal vez eso fue algo bueno, porque con mucho, el mayor problema fue que hizo cosas súper imprudentes y destructivas; era mucho más arrogante que CC. En última instancia, es por eso que dejé de usarlo de inmediato, ya que decidió hacer un "git reset --hard HEAD" sin esconderlo primero, y perdí algo de trabajo. Nunca más, pensé. Bueno, finalmente pude probar la nueva versión de rust que usa GPT-5 y que puede usar su suscripción GPT Pro existente en lugar de una clave API, y esto es mucho mejor que es impactante. En primer lugar, simplemente no hay sustituto para el código compilado rápido cuando se trata de herramientas interactivas como esta. El hecho de que esté escrito en óxido significa que no hay ningún retraso en la entrada del teclado, y tampoco artefactos extraños como los que tienes en CC donde el retroceso no funciona bien y la entrada es irregular y lenta porque está escrita en un lenguaje interpretado que es cien veces más lento para cosas como esta. Lidiar con el retraso y el bloqueo constantes no solo es más lento, es mental y tal vez incluso emocionalmente agotador y agotador, al menos para mí cuando uso estas cosas durante horas y horas. Es una sensación horrible odiar y resentir tus herramientas, incluso cuando dependes de ellas para hacer tu trabajo. Realmente espero que esto eleve el listón de todas estas herramientas y convenza a Anthropic y Google y otros para que también usen rust (o C++, Zig, lo que sea). Pero la gran mejora es, obviamente, el modelo; con un modelo peor que no es confiable en la llamada de herramientas y que pierde coherencia en tareas más largas, nada de la agilidad de Rust valdría la pena. Pero si me sigues aquí, sabrás que he estado asombrado por las habilidades de codificación y la destreza para llamar a las herramientas de GPT-5 Thinking desde unos 15 minutos después de que salió, aunque lo he estado usando principalmente desde la pestaña de agente de Cursor. La conclusión es que este nuevo códice de óxido se ha convertido repentinamente en un competidor verdaderamente formidable de CC, y deberías probarlo. Tendré que ver cuánto uso me permiten salirme con la mía en mi suscripción GPT Pro de $ 200 / mes, pero si tengo que obtener un par más, valdrá la pena. Tenga en cuenta que no he dejado de usar CC. Me gusta usar ambos juntos. Y lo creas o no, todavía uso Cursor. Las personas deben dejar de buscar una sola herramienta que reemplace a todas las demás y aceptar que diferentes herramientas tienen diferentes fortalezas y debilidades, y obtener los mejores resultados aprendiendo todo eso intuitivamente del uso constante. De todos modos, hazte un favor y consíguelo ahora. La forma más fácil es hacer este comando (tenga en cuenta que esto le dará la versión de rust, a pesar de lo confuso que es usar bun/npm para esto): Bollo I -G @openai/códice

Vaya, finalmente pude probar la nueva versión de Codex CLI de OpenAI (su respuesta a Claude Code). La última vez intenté usar codex (tenga en cuenta que esto es diferente de su agente de codificación alojado también llamado codex, lo cual es extremadamente confuso; Estoy hablando ahora de la herramienta que ejecuta localmente en su máquina en la terminal), fue escrita como una aplicación Nodejs / Typescript, y realmente apesta: - solo podía acceder a modelos más débiles como O4-mini o su variante para Codex, confusamente también llamada Codex (¿en serio?) - mucho peor UI/UX que Claude Code - mucho peor en la codificación como resultado de un peor modelo, peores herramientas, peor flujo de agentes. - Te obligaba a dar permiso para todo, por lo que tenías que cuidarlo todo el tiempo, lo que lo hacía mucho menos útil porque no podías ejecutar activamente un montón de ellos en paralelo fácilmente. - Sin embargo, tal vez eso fue algo bueno, porque con mucho, el mayor problema fue que hizo cosas súper imprudentes y destructivas; era mucho más arrogante que CC. En última instancia, esa es la razón por la que dejé de usarlo de inmediato, ya que decidió hacer un "reset --hard HEAD" sin esconder primero, y perdí algo de trabajo. Nunca más, pensé. Bueno, finalmente pude probar la nueva versión de rust que usa GPT-5 y que puede usar su suscripción GPT Pro existente en lugar de una clave API, y esto es mucho mejor que es impactante. En primer lugar, simplemente no hay sustituto para el código compilado rápido cuando se trata de herramientas interactivas como esta. El hecho de que esté escrito en óxido significa que no hay ningún retraso en la entrada del teclado, y tampoco artefactos extraños como los que tienes en CC donde el retroceso no funciona bien y la entrada es irregular y lenta porque está escrita en un lenguaje interpretado que es cien veces más lento para cosas como esta. Lidiar con el retraso y el bloqueo constantes no solo es más lento, es mental y tal vez incluso emocionalmente agotador y agotador, al menos para mí cuando uso estas cosas durante horas y horas. Es una sensación horrible odiar y resentir tus herramientas, incluso cuando dependes de ellas para hacer tu trabajo. Realmente espero que esto eleve el listón de todas estas herramientas y convenza a Anthropic y Google y otros para que también usen rust (o C++, Zig, lo que sea). Pero la gran mejora es, obviamente, el modelo; con un modelo peor que no es confiable en la llamada de herramientas y que pierde coherencia en tareas más largas, nada de la agilidad de Rust valdría la pena. Pero si me sigues aquí, sabrás que he estado asombrado por las habilidades de codificación y la destreza para llamar a las herramientas de GPT-5 Thinking desde unos 15 minutos después de que salió, aunque lo he estado usando principalmente desde la pestaña de agente de Cursor. La conclusión es que este nuevo códice de óxido se ha convertido repentinamente en un competidor verdaderamente formidable de CC, y deberías probarlo. Tendré que ver cuánto uso me permiten salirme con la mía en mi suscripción GPT Pro de $ 200 / mes, pero si tengo que obtener un par más, valdrá la pena. Tenga en cuenta que no he dejado de usar CC. Me gusta usar ambos juntos. Y lo creas o no, todavía uso Cursor. Las personas deben dejar de buscar una sola herramienta que reemplace a todas las demás y aceptar que diferentes herramientas tienen diferentes fortalezas y debilidades, y obtener los mejores resultados aprendiendo todo eso intuitivamente del uso constante. De todos modos, hazte un favor y consíguelo ahora. La forma más fácil es hacer este comando (tenga en cuenta que esto le dará la versión de rust, a pesar de lo confuso que es usar bun/npm para esto): Bollo I -G @openai/códice

Populares

Ranking

Favoritas

Onchain en tendencia

Tendencia en X

Principales fondos recientes

Más destacadas