Trillion Labs, una startup coreana de IA, ha lanzado Tri-21B-think Preview, un modelo de razonamiento de pequeños pesos abiertos que obtiene una puntuación 20 en el Índice de Inteligencia de Análisis Artificial Principales conclusiones del benchmarking: ➤ Inteligencia alta pero no líder para su pequeño tamaño: Tri-21B-think Preview obtiene una alta puntuación por su tamaño relativamente pequeño de 21 mil millones de parámetros. El hecho de que el modelo sea solo 21B lo hace relativamente más accesible para autoalojamiento en comparación con modelos líderes de código abierto como GLM-5 y Kimi K2.5 ➤ Baja tasa de alucinaciones: Tri-21B-think Preview obtiene una puntuación de -49 en el Índice AA-Omniscience, un índice de análisis artificial propietario que mide la fiabilidad del conocimiento y las alucinaciones en diferentes sectores. Esta buena puntuación se debe principalmente a una tasa de alucinaciones relativamente baja (62%), que es la más baja entre los modelos surcoreanos que comparamos. ➤ Fortaleza en el uso de herramientas agenticas: Tri-21B-think Preview obtiene un 93% en τ²-Bench Telecom, demostrando un fuerte rendimiento en flujos de trabajo de herramientas agentes. Tri-21B-think Vista previa entre los modelos de peso abierto de vanguardia en esta categoría, con puntuaciones similares a DeepSeek V3.2 y MiniMax M2.5 en esta categoría ➤ Alto uso de tokens: Tri-21B-think Preview demuestra un uso muy alto de tokens en comparación con otros modelos del mismo nivel de inteligencia, utilizando ~120M de tokens de razonamiento en toda la suite de Inteligencia de Análisis Artificial. Esto es comparable a K-EXAONE (tokens de razonamiento de 100M), otro modelo coreano ➤ Sin puntos finales públicos: Tri-21B-think Preview es un modelo de pesos abiertos bajo licencia Apache 2.0. Actualmente, la única forma de acceder al modelo es mediante autoalojamiento. Trillion Labs ha compartido que se espera que pronto se sirva un endpoint dedicado y de primera parte. Véase más abajo para un análisis más detallado
Tri-21B-think Preview obtiene un 93% en τ²-Bench Telecom, demostrando un rendimiento sólido en flujos de trabajo de uso de herramientas agentes.
Tri-21B-think Preview demuestra un uso muy alto de tokens, utilizando ~120M de tokens de razonamiento en toda la suite de Inteligencia de Análisis Artificial.
9.06K