Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Lior Alexander
A cobrir as últimas notícias de desenvolvimento em IA • Fundador @AlphaSignalAI (250 mil utilizadores)
ML Eng desde 2017 • Ex-Mila
Alguém acabou de contornar o Neural Engine da Apple para treinar modelos.
O Neural Engine dentro de cada Mac da série M foi projetado para inferência.
Executar modelos, não treiná-los. Sem API pública, sem documentação e certamente sem retropropagação.
Um pesquisador fez engenharia reversa das APIs privadas de qualquer forma e construiu um loop de treinamento de transformador que executa passes para frente e para trás diretamente no hardware do ANE.
O método contorna completamente o CoreML.
Em vez de usar as ferramentas oficiais da Apple, o projeto constrói programas em MIL (Model Intermediate Language), compila-os na memória usando APIs `_ANEClient` não documentadas e alimenta dados através de buffers de memória compartilhada IOSurface.
Os pesos são incorporados nos programas compilados como constantes. E
cada passo de treinamento despacha seis núcleos personalizados: atenção para frente, feedforward para frente, e depois quatro passes para trás que computam gradientes em relação às entradas.
Os gradientes de peso ainda são executados na CPU usando as bibliotecas de matriz do Accelerate, mas o trabalho pesado (multiplicações de matriz, softmax, funções de ativação) acontece no ANE.
Isso torna três coisas possíveis que não eram antes:
1. Treinar pequenos modelos localmente sem esgotar a sua bateria
2. Ajustar finamente no dispositivo sem enviar dados para um servidor ou ativar a GPU
3. Pesquisar sobre o que o hardware do ANE pode realmente fazer quando você ignora as barreiras da Apple
Se essa abordagem escalar, a próxima onda de IA no dispositivo deixa de ser sobre executar o modelo congelado de outra pessoa.

Vali Neagu2/03, 21:07
SIM! Alguém fez engenharia reversa do Neural Engine da Apple e treinou uma rede neural com ele.
A Apple nunca permitiu isso. O ANE é apenas para inferência. Sem API pública, sem documentação.
Eles conseguiram abrir isso de qualquer forma.
Por que isso é importante:
• M4 ANE = 6.6 TFLOPS/W vs 0.08 para um A100 (80× mais eficiente)
• "38 TOPS" é uma mentira - a verdadeira capacidade é de 19 TFLOPS FP16
• O seu Mac mini tem este chip quase ocioso
Tradução: inferência de IA local que é mais rápida E usa quase nenhuma energia.
Ainda é uma pesquisa inicial, mas a porta está agora aberta.
→
#AI #MachineLearning #AppleSilicon #LocalAI #OpenSource #ANE #CoreML #AppleSilicon #NPU #KCORES

610
A Alibaba enviou quatro modelos pequenos Qwen 3.5 com um truque emprestado do seu modelo 397B: atenção híbrida Gated DeltaNet.
Três camadas de atenção linear para cada uma camada de atenção total.
As camadas lineares lidam com cálculos rotineiros com uso constante de memória. As camadas de atenção total disparam apenas quando a precisão importa.
Essa proporção de 3:1 mantém a memória estável enquanto a qualidade permanece alta, razão pela qual até o modelo de 0.8B suporta uma janela de contexto de 262.000 tokens.
Cada modelo lida com texto, imagens e vídeo de forma nativa.
Sem adaptador instalado posteriormente. O codificador de visão utiliza convoluções 3D para capturar movimento em vídeo, e depois mescla características de várias camadas em vez de apenas da final.
O 9B supera o GPT-5-Nano em 13 pontos na compreensão multimodal, 17 pontos em matemática visual e 30 pontos na análise de documentos. O 0.8B funciona em um telefone e processa vídeo. O 4B cabe em 8GB de VRAM e atua como um agente multimodal. Todos os quatro são Apache 2.0.
Se esta arquitetura se mantiver, o espaço dos modelos pequenos acaba de se tornar uma corrida de capacidades em vez de uma corrida de tamanhos.
Um ano atrás, executar um modelo multimodal localmente significava um modelo de 13B+ e uma GPU séria.
Agora, um modelo de 4B com 262K de contexto lida com texto, imagens e vídeo a partir de hardware de consumo.
A diferença entre modelos de borda e modelos de destaque está se fechando mais rápido do que a diferença entre os modelos de destaque e os humanos.

Qwen2/03, 21:18
🚀 Apresentando a Série de Modelos Pequenos Qwen 3.5
Qwen3.5-0.8B · Qwen3.5-2B · Qwen3.5-4B · Qwen3.5-9B
✨ Mais inteligência, menos computação.
Estes modelos pequenos são construídos sobre a mesma base Qwen3.5 — multimodal nativo, arquitetura melhorada, RL escalado:
• 0.8B / 2B → pequeno, rápido, ótimo para dispositivos de borda
• 4B → uma base multimodal surpreendentemente forte para agentes leves
• 9B → compacto, mas já fechando a lacuna com modelos muito maiores
E sim — também estamos lançando os modelos Base.
Esperamos que isso apoie melhor a pesquisa, a experimentação e a inovação industrial no mundo real.
Hugging Face:
ModelScope:

186
Seria possível limitar o alcance de contas que são repetidamente sinalizadas por desinformação?
Você poderia usar Community Notes ou Grok para rastrear as penalizações.
Eu apoio a liberdade de expressão, mas quando uma conta com 1M de seguidores espalha deliberadamente informações falsas que alcançam 25M de impressões, isso tem consequências no mundo real.
@nikitabier
139
Top
Classificação
Favoritos
