Магазин DApp | Web3-центр мероприятий и игр

Актуальные темы

Artificial Analysis

Независимый анализ моделей ИИ и хостинг-провайдеров - выберите лучшую модель и поставщика API для вашего сценария использования

Alibaba расширила свою модельную семью Qwen3.5 тремя новыми моделями - модель 27B выделяется, набирая 42 балла в Индексе Искусственного Интеллекта и соответствуя моделям с открытыми весами, которые в 8-25 раз больше по размеру. @Alibaba_Qwen расширила семью Qwen3.5 тремя новыми моделями наряду с флагманом 397B, выпущенным ранее в этом месяце: Qwen3.5 27B (Dense, набирает 42 балла в Индексе Интеллекта), Qwen3.5 122B A10B (MoE, 42) и Qwen3.5 35B A3B (MoE, 37). Две модели MoE (Смешанная Модель Экспертов) активируют только часть общих параметров за один проход (10B из 122B и ~3B из 35B соответственно). Индекс Интеллекта - это наша синтетическая метрика, включающая 10 оценок, охватывающих общее рассуждение, агентные задачи, кодирование и научное рассуждение. Все модели лицензированы по Apache 2.0, нативно поддерживают 262K контекста и возвращаются к объединенной гибридной архитектуре мышления/немышления из оригинального Qwen3, после того как Alibaba перешла на отдельные контрольные точки Инструкций и Рассуждений с обновлениями Qwen3 2507. Ключевые результаты бенчмаркинга для вариантов рассуждений: ➤ Qwen3.5 27B набирает 42 балла в Индексе Интеллекта и является самой интеллектуальной моделью среди моделей менее 230B. Ближайшая модель аналогичного размера - GLM-4.7-Flash (31B всего, 3B активных), которая набирает 30. Модели с открытыми весами эквивалентного интеллекта в 8-25 раз больше по общему количеству параметров: MiniMax-M2.5 (230B, 42), DeepSeek V3.2 (685B, 42) и GLM-4.7 (357B, 42). В FP8 точности требуется ~27GB для хранения весов модели, в то время как в 4-битной квантизации можно использовать оборудование качества ноутбука с 16GB+ ОЗУ. ➤ Qwen3.5 27B набирает 1205 баллов на GDPval-AA (Агентные Задачи Реального Мира), ставя его наравне с более крупными моделями. Для контекста, MiniMax-M2.5 набирает 1206, GLM-4.7 (Рассуждение) набирает 1200, а DeepSeek V3.2 (Рассуждение) набирает 1194. Это особенно примечательно для модели с 27B параметрами и предполагает сильные агентные способности для своего размера. GDPval-AA тестирует модели на реальных задачах в 44 профессиях и 9 основных отраслях. ➤ AA-Omniscience остается относительной слабостью в семье Qwen3.5, в первую очередь из-за низкой точности, а не из-за уровня галлюцинаций. Qwen3.5 27B набирает -42 на AA-Omniscience, сопоставимо с MiniMax-M2.5 (-40), но отстает от DeepSeek V3.2 (-21) и GLM-4.7 (-35). Хотя уровень галлюцинаций Qwen3.5 27B (80%) ниже, чем у аналогов (GLM-4.7 90%, MiniMax 89%, DeepSeek 82%), его точность также ниже - 21% против 34% для DeepSeek V3.2 и 29% для GLM-4.7. Это, вероятно, следствие размера модели - мы обычно наблюдали, что модели с большим количеством параметров показывают лучшие результаты по точности в AA-Omniscience, так как более широкий объем знаний выигрывает от большего количества параметров. ➤ Qwen3.5 27B по интеллекту эквивалентен Qwen3.5 122B A10B. 122B A10B - это модель Смешанной Модели Экспертов, которая активирует только 10B из своих 122B общих параметров за один проход. Модель 27B лидирует в GDPval-AA (1205 Elo против 1145 Elo) и немного на TerminalBench (+1.5 п.п.), в то время как модель 122B лидирует на SciCode (+2.5 п.п.), HLE (+1.2 п.п.) и имеет более низкий уровень галлюцинаций (Omniscience -40 против -42). ➤ Qwen3.5 35B A3B (Рассуждение, 37) является самой интеллектуальной моделью с ~3B активных параметров, на 7 пунктов опережая GLM-4.7-Flash (30). Другие модели в этой категории с ~3B активных параметров включают Qwen3 Coder Next (80B всего, 28), Qwen3 Next 80B A3B (27) и NVIDIA Nemotron 3 Nano 30B A3B (24). ➤ Qwen3.5 27B использовала 98M выходных токенов для запуска Индекса Интеллекта, стоимостью ~$299 через API Alibaba Cloud. Это заметно высокое использование токенов по сравнению с моделями аналогичного интеллекта: MiniMax-M2.5 (56M), DeepSeek V3.2 (61M) и даже более крупный Qwen3.5 397B (86M). Дополнительная информация: ➤ Окно контекста: 262K токенов (расширяемое до 1M через YaRN) ➤ Лицензия: Apache 2.0 ➤ Цены на API (Alibaba Cloud): 397B: $0.60/$3.60, 122B: $0.40/$3.20, 27B: $0.30/$2.40, 35B A3B: $0.25/$2.00 за 1M входных/выходных токенов.

Inception Labs запустила Mercury 2, свою готовую к производству LLM следующего поколения. Mercury 2 достигает >1,000 токенов/с с значительными улучшениями в интеллекте Diffusion LLMs (“dLLMs”) @_inception_ai используют другую архитектуру по сравнению с LLM на основе автогрессии. Процесс генерации Diffusion LLM начинается с шума и итеративно уточняет вывод, используя трансформер, который может изменять несколько токенов параллельно. Это позволяет параллелизовать генерацию выходных токенов, что обеспечивает более высокую скорость вывода, так как многие выходные токены генерируются одновременно. Ключевые выводы: ➤ Среди моделей сопоставимого размера/ценового класса Mercury 2 демонстрирует конкурентоспособные результаты в интеллекте по сравнению со скоростью вывода. Хотя он не обладает ведущим интеллектом, его скорость вывода более чем в 3 раза превышает скорость следующей самой быстрой модели в этом классе (бенчмарки основаны на первых сторонних конечных точках или медиане провайдеров, обслуживающих модель, где первая сторонняя конечная точка недоступна) ➤ Ключевые сильные стороны включают агентное кодирование и использование терминала, а также следование инструкциям. Mercury 2 показывает аналогичные результаты с Claude 4.5 Haiku на Terminal-Bench Hard и набирает 70% на IFBench (Следование Инструкциям), превосходя gpt-oss-120B, GPT-5.1 Codex mini и GPT-5 nano Фон Inception Labs: Это второй релиз от Inception Labs. Основатели ранее были профессорами Стэнфорда, UCLA и Корнелла и внесли вклад в исследования и технологии ИИ, включая Flash Attention, Decision Transformers и Direct Preference Optimization (DPO). Смотрите ниже для дальнейшего анализа.

Топ

Рейтинг

Избранное