Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Кодек прокладає шлях для КТ для розуміння різниці між VLA та LLM

15 годин тому
VLA все ще дуже нові, і багатьом людям важко зрозуміти різницю між VLA та LLM.
Ось глибоке занурення в те, як ці системи штучного інтелекту відрізняються за міркуваннями, відчуттями та діями. Частина 1.
Давайте розберемо ключові відмінності та те, чим агенти штучного інтелекту, обгорнуті навколо LLM, відрізняються від операторів-агентів, які використовують моделі VLA:
1. Почуття: як вони сприймають світ
Агент (LLM): обробляє текст або структуровані дані, наприклад JSON, API та іноді зображення. Це схоже на роботу мозку з чистими, абстрактними вхідними даними. Подумайте про читання посібника або розбір електронної таблиці. Чудово підходить для структурованих середовищ, але обмежений тим, що в нього подаються.
Оператор (VLA): бачить необроблені пікселі з камер у реальному часі, а також дані датчиків (наприклад, дотик, положення) та пропріоцепцію (самоусвідомлення руху). Це схоже на навігацію світом за допомогою очей і почуттів, процвітаючи в динамічних, безладних умовах, таких як інтерфейси користувача або фізичний простір.
2. Дія: як вони взаємодіють
Агент: діє шляхом виклику функцій, інструментів або API. Уявіть собі, що менеджер надсилає точні інструкції на кшталт «забронюйте рейс через Expedia API». Це навмисно, але покладається на готові інструменти та зрозумілі інтерфейси.
Оператор: виконує безперервні дії на низькому рівні, як-от переміщення курсору миші, набір тексту або керування суглобами роботів. Це схоже на кваліфікованого працівника, який безпосередньо маніпулює навколишнім середовищем, що ідеально підходить для завдань, що вимагають точності в реальному часі.
3. Контроль: як вони приймають рішення
Агент: Слідує повільному, рефлексивному циклу: плануйте, викликайте інструмент, оцінюйте результат, повторюйте. Він прив'язаний до токена (обмежений обробкою тексту) і прив'язаний до мережі (очікує відповідей API). Це робить його методичним, але млявим для завдань у реальному часі.
Оператор: Діє, приймаючи поетапні рішення в щільному циклі зворотного зв'язку. Думайте про це як про геймера, який миттєво реагує на те, що відображається на екрані. Така швидкість забезпечує плавну взаємодію, але вимагає надійної обробки в режимі реального часу.
4. Дані для вивчення: що живить їхнє навчання
Агент: Навчений на великих текстових корпусах, інструкціях, документації або наборах даних RAG (Retrieval-Augmented Generation). Він вчиться з книг, коду або поширених запитань, перевершуючи структуровані знання.
Оператор: навчається з демонстрацій (наприклад, відео, на яких люди виконують завдання), журналів телеоперацій або сигналів винагороди. Це схоже на навчання, спостерігаючи та практикуючись, ідеально підходить для завдань, де чітких інструкцій мало.
5. Режими відмови: де вони ламаються
Агент: схильний до галюцинацій (вигадування відповідей) або крихких довгострокових планів, які руйнуються, якщо один крок не вдається. Це схоже на стратега, який надмірно обмірковує або неправильно розуміє ситуацію.
Оператор: стикається з коваріатним зсувом (коли дані тренування не відповідають реальним умовам) або складними помилками в управлінні (маленькі помилки сніжний ком). Це схоже на те, як водій втрачає контроль на незнайомій дорозі.
6. Infra: технології, що стоять за ними
Агент: покладається на підказку/маршрутизатор, щоб вирішити, які інструменти викликати, реєстр інструментів для доступних функцій та пам'ять/RAG для контексту. Це модульна система, як командний центр, який оркеструє завдання.
Оператор: потрібні конвеєри прийому відео, сервер дій для керування в реальному часі, захисний щит для запобігання шкідливим діям і буфер повторів для зберігання вражень. Це високопродуктивна система, створена для динамічних середовищ.
7. Де кожен сяє: їхні солодкі місця
Агент: домінує в робочих процесах з чистими API (наприклад, автоматизація бізнес-процесів), обґрунтуванням документів (наприклад, узагальнення звітів) або генерацією коду. Це ваш вибір для структурованих завдань високого рівня.
Оператор: чудово справляється з безладними середовищами без API, як-от навігація в незграбних інтерфейсах користувача, керування роботами або вирішення завдань, схожих на гру. Якщо це передбачає взаємодію в реальному часі з непередбачуваними системами, VLA є королем.
8. Ментальна модель: планувальник + виконавець
Думайте про LLM Agent як про планувальника: він розбиває складні завдання на чіткі, логічні цілі.
Оператор VLA є виконавцем, який виконує ці цілі, безпосередньо взаємодіючи з пікселями або фізичними системами. Чекер (інша система або агент) стежить за результатами, щоб забезпечити успіх.
$CODEC

3,43K
Найкращі
Рейтинг
Вибране