Ну ось і настав момент, коли штучний інтелект почав навчати роботів. Компанія Nvidia розробила ШІ-агент Eureka, який вміє навчати роботів складним руховим навичкам.
Наприклад, Eureka навчив роботизовану руку пенспінінгу — швидкому жонглюванню ручки пальцями. Звичайно, навчалася віртуальна модель роботизованої руки, але це не має особливого значення.
Загалом ШІ-агент Nvidia навчив роботів майже 30 різних завдань, включаючи відкривання дверцят шафи, кидання та лов м’ячика і так далі. Деякі з цих дій можуть здатися дуже простими, але це лише тому, що ми вміємо це робити автоматично і не замислюючись.
Eureka спирається на мовну модель GPT-4. Навчання відбувалося у додатку для моделювання фізики Nvidia Isaac Gym.
Навчання з підкріпленням дозволило досягти вражаючих успіхів за останнє десятиліття, проте багато проблем все ще існують, наприклад, дизайн винагород, який залишається процесом спроб та помилок. Eureka — це перший крок на шляху до розробки нових алгоритмів, які поєднують методи генеративного навчання та навчання з підкріпленням для вирішення складних завдань
Важливо відзначити, що ефективність ШІ-агента Nvidia дуже висока. Як сказано в прес-релізі, програми винагороди, створені Eureka, які дозволяють роботам навчатися методом проб та помилок, перевершують програми, написані експертами, більш ніж у 80% завдань. Це призводить до середнього підвищення продуктивності роботів більш ніж на 50%.
Агент ШІ використовує мовну модель GPT-4 та генеративний ІІ для написання програмного коду, який винагороджує роботів за навчання з підкріпленням. Він не вимагає підказок для конкретних завдань або заздалегідь заданих шаблонів винагород і легко враховує відгуки людей, щоб змінити винагороди для отримання результатів, які більш точно відповідають баченню розробника.
Використовуючи моделювання з прискоренням на графічному процесорі Isaac Gym, Eureka може швидко оцінити якість великих партій кандидатів на винагороду для більш ефективного навчання. Потім Eureka складає зведену інформацію про ключові статистичні дані за результатами навчання і дає вказівку мовної моделі покращити генерування функцій винагороди. Таким чином, ШІ самовдосконалюється. Він навчив усіх видів роботів — чотириногих, двоногих, квадрокоптерів, роботів зі спритними руками, коботів-маніпуляторів та інших — виконувати різні завдання.