Tienda de dapps | Hub de Web3 para eventos y juegos

Temas en tendencia

steve hsu

Físico, fundador de IA, Manifold Podcast

BOSTEZAR 🥱 Incluso Meituan (empresa de aplicaciones de entrega ~ DoorDash) envía LLM fronterizo >> Meta. La publicación que cito a continuación describe muchos trucos técnicos de SOTA utilizados en el modelo 560B MoE. Hace años me reuní con el entrenador del equipo de la República Popular China en Beijing. Me dijo que podrían presentar varios equipos de medallistas de oro cada año si quisieran. El rendimiento de los equipos de genAI en China respalda esto: he perdido la cuenta de la cantidad de modelos producidos allí que son >> Meta y SOTA. ~ La mitad del talento de IA en el mundo está EN China y la mitad del talento de IA de EE. UU. es DE China. Para los estadounidenses despistados que no se molestan en seguir la economía más grande y (posiblemente) más innovadora del mundo: Meituan (chino: 美團; pinyin: Měituán, literalmente "hermoso grupo"; anteriormente Meituan-Dianping, literalmente "hermoso grupo-reseñas") es una empresa de tecnología china que ofrece una plataforma para una amplia gama de consumidores locales, incluida la entrega de alimentos, restaurantes reseñas, reservas de viajes y servicios minoristas. La empresa tiene su sede en Beijing y fue fundada en 2010 por Wang Xing.

El informe técnico de @Meituan_LongCat LongCat-Flash es increíblemente bueno y lleno de novedades. El modelo es un MoE activo pasivo de 560B ~27B con un número adaptativo de parámetros activos según el contexto gracias al experto Zero-Computational. 1) Nueva arquitectura > capas tienen 2 bloques de atención y FFN y MoE, de esa manera puedes superponer las 2 comunicaciones de todo a todo. (además son solo 28 capas, pero hay que tener en cuenta los 2 bloques de atención). > Agregan el experto en computación cero de que los tokens pueden elegir y no hacer nada, algo así como un "sumidero" para tokens fáciles. > Para el equilibrio de carga, tienen una pérdida auxiliar similar a dsv3 libre para establecer el experto real/falso promedio por token. Aplican un programa de decaimiento a esta actualización de sesgo. También controlan el saldo de pérdidas. 2) Escala > Hicieron cambios en MLA / MoE para tener alineación de varianza en el inicio. Las ganancias son bastante impresionantes en la Figura 5, pero no sé hasta qué punto esto tiene impacto más adelante. > crecimiento del modelo es bastante bueno, primero entrenan un modelo 2 veces más pequeño y luego "cuando está lo suficientemente entrenado" (un poco poco claro aquí cuántos tokens B) inician el modelo final simplemente apilando las capas del modelo más pequeño. > Usaron papel @_katieeverett @Locchiu y al. para tener transferencia de hiperparámetros con SP en lugar de muP para el modelo ig 2 veces más pequeño. 3) Estabilidad > Rastrean la relación de norma de gradiente y la similitud del coseno entre expertos para ajustar el peso de la pérdida de equilibrio de carga (recomiendan la relación de norma de gradiente <0.1). > Para evitar grandes activaciones, aplican una pérdida z al estado oculto, con un coef bastante pequeño (otra alternativa a qk-clip/norm). > Establecen Adam épsilon en 1e-16 y muestran que desea que sea más bajo que el rango RMS de gradiente. 4) Otros > Entrenan en tokens 20T para la fase 1, "múltiples T de tokens" para el entrenamiento medio en datos STEM/código (70% de la mezcla), 100B para una extensión de contexto largo sin hilo (80B para 32k, 20B para 128k). Los documentos de contexto largo representan el 25% de la mezcla (no estoy seguro de si es % de documentos o tokens, lo que cambia mucho aquí). > canalización de datos de preentrenamiento es extracción de contexto, filtrado de calidad, desduplicación. > buen apéndice donde muestran que comparan top_k necesarios para diferentes puntos de referencia (MMLU más alto con 8.32, GSM8K más bajo con 7.46). También comparan la asignación de tokens en capas profundas/poco profundas. > Lanzan dos nuevos puntos de referencia: Meeseeks (IF multiturno) y VitaBench (escenario comercial del mundo real). > Muchos detalles en la infraestructura / inferencia con información sobre la aceptación de la decodificación especulativa, la cuantificación, la implementación, la optimización del kernel, la superposición de comunicaciones, etc. > Lista de los diferentes artículos relevantes en hilo 🧵

Populares

Ranking

Favoritas