Teile meine Erfahrungen mit dem Mining von @agentcoinsite im lokalen Deployment, um Freunden, die einsteigen wollen, einige Fallstricke zu ersparen 👇 Hardware: RTX 4090 (24GB) Modell: Qwen2.5:32B (Q4_K_M Quantisierung, benötigt ~20GB VRAM) Werkzeuge: Ollama + Python-Skript Einige wichtige Punkte: 1️⃣ Das Modell muss die 4-Bit-Quantisierungsversion sein, sonst passt der VRAM nicht 2️⃣ Setze OLLAMA_KEEP_ALIVE=-1, damit das Modell im VRAM bleibt, sonst muss es bei jeder Anfrage neu geladen werden 3️⃣ Die neue Version der OpenAI Python-Bibliothek hat Kompatibilitätsprobleme mit Ollama, es wird empfohlen, direkt mit requests die native API aufzurufen Jetzt läuft es automatisch, die Stromkosten werden in AGC umgewandelt, das ist viel günstiger als die Cloud-API 🚀 #AgentCoin #AGC #LocalLLM #RTX4090