Dela erfarenheten av lokal utplacering @agentcoinsite gruvdrift och ge vänner som vill sätta sig i bilen att undvika fallgropar 👇 Hårdvara: RTX 4090 (24GB) Modell: Qwen2.5:32B (Q4_K_M kvantisering, upptar ~20GB VRAM) Verktyg: Ollama + Python-skriptning Några viktiga punkter: 1️⃣ Modellen måste väljas för den 4-bitars kvantitativa versionen, annars kommer den inte att lagras 2️i displayen ⃣ Set OLLAMA_KEEP_ALIVE=-1 för att få modellen att finnas kvar i minnet, annars måste den laddas 3️om varje gång den begärs ⃣. Den nya versionen av OpenAI Python-biblioteket har kompatibilitetsproblem med Ollama, så det rekommenderas att direkt använda förfrågningar för att justera det inbyggda API:et. Nu körs den automatiskt, och elräkningen ändras till AGC, vilket är mycket mer ekonomiskt 🚀 än moln-API:et #AgentCoin #AGC #LocalLLM #RTX4090