Dywersyfikacja danych pozwala na szybszą naukę robotów
Dywersyfikacja danych jest krokiem w kierunku odpowiedniej nauki robotów w wielu środowiskach zwiększając ich możliwości adaptacji.
W świecie science-fiction roboty takie jak Rosie z „Jetsonów” bez wysiłku przełączają się między obowiązkami domowymi – gotowaniem, sprzątaniem, a nawet wynoszeniem śmieci. Jednak urzeczywistnienie tej wizji okazało się trudnym zadaniem dla inżynierów. Szkolenie robotów ogólnego przeznaczenia do wykonywania różnych zadań w rzeczywistych środowiskach jest nadal dużym wyzwaniem ze względu na złożoność i zmienność zarówno samych robotów, jak i ich otoczenia.
Tradycyjnie roboty są szkolone przy użyciu danych specyficznych dla jednego zadania i jednego typu robota. Inżynierowie zbierają dane w kontrolowanym środowisku, aby wytrenować robota, ale proces ten jest często kosztowny, czasochłonny i nie można go uogólnić. Robot wyszkolony w jednym scenariuszu może mieć trudności w konfrontacji z innym środowiskiem lub nieznanym zadaniem. Aby przezwyciężyć to ograniczenie, naukowcy z MIT opracowali technikę łączenia różnych danych w jeden system, umożliwiając robotom uczenie się i dostosowywanie do szerokiej gamy zadań – podobnie jak duże modele językowe (LLM) dostosowują się do różnych podpowiedzi.
Naukowcy z MIT opracowali architekturę o nazwie Heterogeneous Pretrained Transformers (HPT), która łączy ogromną ilość różnorodnych danych z wielu źródeł, w tym symulacji i prawdziwych robotów. Podejście ma na celu stworzenie wspólnego „języka”, który umożliwia spójne przetwarzanie różnych typów danych przez generatywny model sztucznej inteligencji. Technika została zainspirowana architekturą LLM, takich jak GPT-4, które są szkolone na zróżnicowanym zestawie tekstów, aby stać się elastycznymi i biegłymi w różnych zadaniach. W robotyce podejście to może przełożyć się na adaptowalne roboty ogólnego przeznaczenia, zdolne do wykonywania szerszego zakresu czynności bez konieczności szkolenia od podstaw dla każdego konkretnego zadania.
Badania, zaprezentowane na konferencji na temat systemów przetwarzania informacji neuronowych, stanowią ważny krok w kierunku budowy robotów, które mogą działać bardziej niezależnie i elastycznie. Model HPT dostosowuje dane z różnych domen – takich jak czujniki wizyjne, enkodery ramion robotów, a nawet filmy demonstracyjne z udziałem ludzi – do wspólnego formatu, który może przetwarzać model transformatora. W ten sposób system tworzy podstawę, która pozwala każdemu robotowi, niezależnie od jego konfiguracji, skutecznie uczyć się z różnych źródeł danych.
„Fuzja danych” jest podobna do tego, w jaki sposób samojezdne samochody są szkolone przy użyciu różnych modalności wejściowych, od obrazów z kamer po radar i LIDAR. Dostosowując wszystkie rodzaje danych do wspólnego formatu, model HPT pozwala robotom korzystać z ogromnej puli wiedzy, co jest kluczem do stworzenia bardziej uogólnionej formy inteligencji.
Pomysł wykorzystania dużego, zróżnicowanego zbioru danych do wstępnego trenowania modelu został zapożyczony bezpośrednio z domeny językowej. Na przykład GPT-4 jest wstępnie trenowany na szerokim zakresie danych językowych, co pozwala mu działać dobrze w różnych kontekstach przy minimalnym dostrajaniu. W robotyce różnorodność danych stanowi jednak wyjątkowe wyzwanie. Roboty zbierają informacje z wielu modalności – obrazów z kamer, map głębi, instrukcji językowych i pomiarów, które śledzą fizyczną pozycję i ruch robota.
HPT MIT rozwiązuje ten problem, przekształcając wszystkie te typy danych w jednolitą reprezentację, umożliwiając transformatorowi – temu samemu typowi modelu używanemu w LLM – ich przetwarzanie. Każde wejście jest reprezentowane jako token, którym model może manipulować w spójny sposób. W miarę rozwoju model zyskuje zdolność przetwarzania coraz bardziej złożonych danych wejściowych, co pozwala mu zrozumieć, jak wykonywać różne zadania w różnych robotach i środowiskach.
Podejście już teraz przynosi znaczące korzyści. W testach HPT poprawiło wydajność robotów zarówno w symulowanych, jak i rzeczywistych zadaniach o ponad 20% w porównaniu z tradycyjnymi metodami szkoleniowymi. Nawet gdy zadania znacznie różniły się od tych używanych podczas wstępnego szkolenia, model HPT nadal wykazywał lepszą zdolność adaptacji, co stanowi znaczący postęp w tej dziedzinie.
Korzyści płynące z łączenia różnorodnych danych w celu szkolenia robotów można zaobserwować również w innych dziedzinach. Na przykład AlphaGo Zero firmy DeepMind, która słynnie pokonała ludzkich mistrzów w Go, zrobiła to, trenując na milionach gier. Jednak w przeciwieństwie do tradycyjnych robotów, dane treningowe AlphaGo były jednorodne – koncentrowały się wyłącznie na grach Go. Z kolei roboty ogólnego przeznaczenia wymagają danych obejmujących wiele środowisk i kontekstów, od poruszania się po zagraconej kuchni po montaż złożonych obiektów.
Innym inspirującym przykładem jest Dactyl firmy OpenAI, robotyczna ręka, która nauczyła się manipulować kostką Rubika za pomocą uczenia ze wzmocnieniem. Szkolenie Dactyla obejmowało zarówno symulowane środowiska, jak i próby w świecie rzeczywistym, pokazując, jak łączenie różnych danych może skutkować bardziej wydajnym i adaptacyjnym robotem. Ograniczeniem podejścia Dactyl była jednak potrzeba intensywnego treningu specyficznego dla zadania. HPT ma na celu przezwyciężenie tego poprzez stworzenie bardziej uogólnionego rozwiązania, które nie musi zaczynać od zera za każdym razem, gdy prezentowane jest nowe zadanie.
David Held, profesor nadzwyczajny na Uniwersytecie Carnegie Mellon, zauważył, że zdolność HPT do trenowania jednej umiejętności na podstawie wielu przykładów danych stanowi dla robota duży postęp. Takie podejście umożliwia wykorzystanie większych zbiorów danych podczas szkolenia i pozwala na szybszą adaptację do nowych projektów robotów – jest to niezbędna zdolność w branży, w której stale opracowywany jest nowy sprzęt robotyki.
Naukowcy z MIT przewidują przyszłość, w której roboty ogólnego przeznaczenia będą wyposażone w „uniwersalny mózg”, który można pobrać i używać bez dodatkowego szkolenia – podobnie jak w przypadku pobierania nowej aplikacji na telefon. Chociaż wizja ta jest wciąż daleka od rzeczywistości, rozwój HPT jest krokiem w tym kierunku. Naukowcy koncentrują się obecnie na zwiększeniu różnorodności danych wykorzystywanych do szkolenia HPT, mając nadzieję, że jeszcze szerszy zbiór danych doprowadzi do dalszej poprawy wydajności. Ich celem jest również zwiększenie zdolności HPT do przetwarzania nieoznakowanych danych, podobnie jak LLM, takie jak GPT-4, mogą rozumieć i uczyć się z ogromnych ilości tekstu bez wyraźnych etykiet.
Pomimo obietnic, rozwój uniwersalnego mózgu robota wciąż stoi przed kilkoma wyzwaniami. Jedną z kluczowych przeszkód jest różnorodność danych – nie tylko posiadanie wystarczającej ilości danych, ale także zapewnienie, że dane reprezentują szeroki zakres zadań, które roboty mogą wykonywać w przyszłości. Budowa robotów pod względem ograniczeń na przykład zakresów ruchowych robotów nadal stanowi problem w dostosowywaniu danych szkoleniowych dla określonych funkcji.
Jednak trajektoria jest jasna. Dzięki postępom takim jak HPT zmierzamy w kierunku przyszłości, w której roboty nie będą tylko narzędziami, ale adaptowalnymi asystentami zdolnymi do uczenia się i ewolucji w miarę interakcji ze światem. Takie podejście ostatecznie sprawi, że roboty staną się bardziej przydatne w codziennym życiu, od zastosowań przemysłowych po środowiska domowe.
Szymon Ślubowski