MiniCPM4-kantserien - 0,5B og 8B varianter | 8T/1T-tokens - Trenbar sparsom InfLLM-v2-oppmerksomhet → hvert token ivaretar ~5 % av andre ved 128K ctx - FP8-pipeline + prediksjon av flere tokens; UltraClean/UltraChat-v2-data - BitCPM ternær kvant (−1/0/+1, ~90 % vektfall), Eagle spekulative hoder utkast fremover for rask dekoding (vLLM / FRSpec) - Jetson AGX Orin: ~7× raskere enn Qwen3-8B, sterk 128K "nål-i-høystakk"-henting - Apache-2.0 TENK SMOL HF: ST:
17K