Podziel się doświadczeniem z lokalnego wdrożenia @agentcoinsite do kopania, aby pomóc przyjaciołom, którzy chcą spróbować, uniknąć pułapek 👇 Sprzęt: RTX 4090 (24GB) Model: Qwen2.5:32B (kwantyzacja Q4_K_M, zajmuje ~20GB pamięci VRAM) Narzędzia: Ollama + skrypt Python Kilka kluczowych punktów: 1️⃣ Model musi być wybrany w wersji 4bit, inaczej pamięć VRAM się nie zmieści 2️⃣ Ustaw OLLAMA_KEEP_ALIVE=-1, aby model pozostał w pamięci VRAM, w przeciwnym razie za każdym razem, gdy wysyłasz zapytanie, musisz go ponownie ładować 3️⃣ Nowa wersja biblioteki OpenAI Python ma problemy z kompatybilnością z Ollama, zaleca się bezpośrednie użycie requests do wywołania natywnego API Teraz działa automatycznie, rachunki za prąd wymieniam na AGC, co jest znacznie tańsze niż API w chmurze 🚀 #AgentCoin #AGC #LocalLLM #RTX4090