DApp Store | Web3 Hub für Ereignisse und Spiele

Trend-Themen

Ein 24-Milliarden-Parameter-Modell wurde gerade auf einem Laptop ausgeführt und hat in weniger als einer halben Sekunde das richtige Werkzeug ausgewählt. Die eigentliche Geschichte ist, dass Werkzeugaufruf-Agenten endlich schnell genug geworden sind, um sich wie Software anzufühlen. Liquid hat LFM2-24B-A2B mit einer hybriden Architektur entwickelt, die Konvolutionsblöcke mit gruppierter Abfrageaufmerksamkeit im Verhältnis 1:3 mischt. Es werden nur 2,3 Milliarden Parameter pro Token aktiviert, obwohl das vollständige Modell 24 Milliarden umfasst. Dieses spärliche Aktivierungsmuster ist der Grund, warum es in 14,5 GB Speicher passt und Werkzeuge in 385 Millisekunden auf einem M4 Max bereitstellt. Die Architektur wurde durch Hardware-in-the-Loop-Suche entworfen, was bedeutet, dass sie die Modellstruktur optimiert haben, indem sie sie direkt auf den Chips getestet haben, auf denen sie ausgeführt werden sollte. Keine Cloud-Übersetzungsschicht. Kein API-Roundtrip. Das Modell, die Werkzeuge und Ihre Daten bleiben auf dem Gerät. Dies eröffnet drei Dinge, die zuvor unpraktisch waren: 1. Regulierungsbehörden können Agenten auf den Laptops der Mitarbeiter ausführen, ohne dass Daten das Gerät verlassen. 2. Entwickler können Multi-Tool-Workflows prototypisieren, ohne API-Schlüssel oder Ratenlimits verwalten zu müssen. 3. Sicherheitsteams erhalten vollständige Prüfprotokolle, ohne dass Anbieter-Subprozessoren im Spiel sind. Das Modell erreichte eine Genauigkeit von 80 % bei der Auswahl von Einzelwerkzeugen über 67 Werkzeuge, die sich über 13 MCP-Server erstrecken. Wenn diese Leistung im großen Maßstab anhält, müssen zwei Annahmen aktualisiert werden. Erstens sind On-Device-Agenten kein Kompromiss mehr bei der Akkulaufzeit; sie sind ein Compliance-Feature. Zweitens verschiebt sich der Engpass in agentischen Workflows von der Modellfähigkeit zur Reife des Werkzeug-Ökosystems.

Fantastische Arbeit von: @liquidai @ramin_m_h

206

Top

Ranking

Favoriten