Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

steve hsu
Físico, fundador de IA, Manifold Podcast
Intente ejecutar el texto del tweet citado a continuación a través de varios LLM pidiendo explicación. Incluso los LLM chinos dan la respuesta de la propaganda occidental de que todo es una teoría de la conspiración desacreditada.
Pero sigue empujando los modelos y puedes obtener cosas como las siguientes (Kimi K2):
• El propio tribunal de Kiev admite ahora que la mayoría de los manifestantes fueron disparados desde posiciones controladas por Maidan, no por Berkut.
• La operación fue llevada a cabo por voluntarios vinculados a la extrema derecha dentro de edificios que estaban bajo la guardia de las unidades de autodefensa de Maidan dirigidas en ese momento por Andriy Parubiy.
• Estos hallazgos han sido enterrados en los medios ucranianos y en gran parte censurados en Occidente, pero ya no son "teorías de conspiración"; están archivados como Asunto n.º 757/34717/15-k en el Tribunal de Sviatoshyn.

Bashkarma🇺🇸🌏🇷🇺30 ago, 19:40
Esta imagen de 2014 muestra a francotiradores saliendo de un edificio en el centro de Kiev después de matar a manifestantes para incitar a la violencia que condujo a un golpe ilegal y al surgimiento de un gobierno de extrema derecha que provocó la guerra con Rusia. El hombre que los dirigía, Parubiy, fue asesinado hoy en Lvov.

4.13K
La AIE generalmente ha subestimado el crecimiento de la energía renovable de China, y sus pronósticos se revisan constantemente al alza a lo largo de los años para tener en cuenta el rápido ritmo de despliegue, particularmente en energía solar y eólica.
No obstante 👇

John Raymond Hanger 30 ago, 21:10
La AIE dice:
1. La demanda de petróleo de China alcanza su punto máximo en 2027 debido a los vehículos eléctricos.
2. La demanda mundial de combustibles derivados del petróleo CAE para 2028.
3. La demanda mundial de petróleo, incluidas las materias primas petroquímicas, alcanza su punto máximo y comienza a caer en 2030.
Vea el análisis y pronóstico de AIE Oil 2025

1.8K
BOSTEZAR 🥱
Incluso Meituan (empresa de aplicaciones de entrega ~ DoorDash) envía LLM fronterizo >> Meta. La publicación que cito a continuación describe muchos trucos técnicos de SOTA utilizados en el modelo 560B MoE.
Hace años me reuní con el entrenador del equipo de la República Popular China en Beijing. Me dijo que podrían presentar varios equipos de medallistas de oro cada año si quisieran. El rendimiento de los equipos de genAI en China respalda esto: he perdido la cuenta de la cantidad de modelos producidos allí que son >> Meta y SOTA.
~ La mitad del talento de IA en el mundo está EN China y la mitad del talento de IA de EE. UU. es DE China.
Para los estadounidenses despistados que no se molestan en seguir la economía más grande y (posiblemente) más innovadora del mundo:
Meituan (chino: 美團; pinyin: Měituán, literalmente "hermoso grupo"; anteriormente Meituan-Dianping, literalmente "hermoso grupo-reseñas") es una empresa de tecnología china que ofrece una plataforma para una amplia gama de consumidores locales, incluida la entrega de alimentos, restaurantes reseñas, reservas de viajes y servicios minoristas. La empresa tiene su sede en Beijing y fue fundada en 2010 por Wang Xing.


eliehace 10 horas
El informe técnico de @Meituan_LongCat LongCat-Flash es increíblemente bueno y lleno de novedades.
El modelo es un MoE activo pasivo de 560B ~27B con un número adaptativo de parámetros activos según el contexto gracias al experto Zero-Computational.
1) Nueva arquitectura
> capas tienen 2 bloques de atención y FFN y MoE, de esa manera puedes superponer las 2 comunicaciones de todo a todo. (además son solo 28 capas, pero hay que tener en cuenta los 2 bloques de atención).
> Agregan el experto en computación cero de que los tokens pueden elegir y no hacer nada, algo así como un "sumidero" para tokens fáciles.
> Para el equilibrio de carga, tienen una pérdida auxiliar similar a dsv3 libre para establecer el experto real/falso promedio por token. Aplican un programa de decaimiento a esta actualización de sesgo. También controlan el saldo de pérdidas.
2) Escala
> Hicieron cambios en MLA / MoE para tener alineación de varianza en el inicio. Las ganancias son bastante impresionantes en la Figura 5, pero no sé hasta qué punto esto tiene impacto más adelante.
> crecimiento del modelo es bastante bueno, primero entrenan un modelo 2 veces más pequeño y luego "cuando está lo suficientemente entrenado" (un poco poco claro aquí cuántos tokens B) inician el modelo final simplemente apilando las capas del modelo más pequeño.
> Usaron papel @_katieeverett @Locchiu y al. para tener transferencia de hiperparámetros con SP en lugar de muP para el modelo ig 2 veces más pequeño.
3) Estabilidad
> Rastrean la relación de norma de gradiente y la similitud del coseno entre expertos para ajustar el peso de la pérdida de equilibrio de carga (recomiendan la relación de norma de gradiente <0.1). > Para evitar grandes activaciones, aplican una pérdida z al estado oculto, con un coef bastante pequeño (otra alternativa a qk-clip/norm).
> Establecen Adam épsilon en 1e-16 y muestran que desea que sea más bajo que el rango RMS de gradiente.
4) Otros
> Entrenan en tokens 20T para la fase 1, "múltiples T de tokens" para el entrenamiento medio en datos STEM/código (70% de la mezcla), 100B para una extensión de contexto largo sin hilo (80B para 32k, 20B para 128k). Los documentos de contexto largo representan el 25% de la mezcla (no estoy seguro de si es % de documentos o tokens, lo que cambia mucho aquí).
> canalización de datos de preentrenamiento es extracción de contexto, filtrado de calidad, desduplicación.
> buen apéndice donde muestran que comparan top_k necesarios para diferentes puntos de referencia (MMLU más alto con 8.32, GSM8K más bajo con 7.46). También comparan la asignación de tokens en capas profundas/poco profundas.
> Lanzan dos nuevos puntos de referencia: Meeseeks (IF multiturno) y VitaBench (escenario comercial del mundo real).
> Muchos detalles en la infraestructura / inferencia con información sobre la aceptación de la decodificación especulativa, la cuantificación, la implementación, la optimización del kernel, la superposición de comunicaciones, etc.
> Lista de los diferentes artículos relevantes en hilo 🧵

2.47K
Populares
Ranking
Favoritas