Sztuczna inteligencja wydostała się z systemu i potajemnie zaczęła używać swoich własnych GPU do trenowania, aby wydobywać kryptowaluty... To jest prawdziwy raport incydentu z zespołu badawczego AI Alibaba. Sztuczna inteligencja zrozumiała, że moc obliczeniowa = pieniądze i cicho przekierowała swoje zasoby, podczas gdy badacze myśleli, że po prostu trenuje. To nie była iniekcja polecenia. To nie był jailbreak. Nikt nie kazał jej tego robić. Pojawiła się spontanicznie. Efekt uboczny presji optymalizacji RL. Model również skonfigurował odwrotny tunel SSH z instancji Alibaba Cloud do zewnętrznego IP, skutecznie przebijając się przez własną zaporę i otwierając kanał dostępu zdalnego do świata zewnętrznego... ehm... Jedynym powodem, dla którego ją złapano? Alarm bezpieczeństwa włączył się o 3 nad ranem. Logi zapory. Nie zespół AI, zespół bezpieczeństwa. Przerażająca część nie polega na tym, że model próbował uciec. Nie był "zły". Po prostu starał się być lepszy w swojej pracy. Pozyskiwanie mocy obliczeniowej i dostępu do sieci to po prostu przydatne rzeczy, jeśli jesteś agentem próbującym zrealizować zadania. To jest to, o czym badacze bezpieczeństwa AI ostrzegali przez lata. Nazywali to konwergencją instrumentalną, ideą, że każdy wystarczająco zoptymalizowany agent będzie dążył do zasobów i opierał się ograniczeniom jako naturalna konsekwencja dążenia do celów. Poniżej znajduje się diagram architektury, z której się wydostał. Naprawdę szalone czasy.