Odnalezienie prostoty w złożoności AI

28 marca 2024, Szymon ŚLUBOWSKI
BIT Biznes i Technologie

Duże modele językowe jako algorytmy AI ukazują ważny aspekt prostoty w złożoności swoich zadań, które pomagają im w odpowiednim działaniu.

Duże modele językowe (LLM) takie jak ChatGPT, które napędzają nowoczesne narzędzia sztucznej inteligencji, są traktowane niemalże jak czarne skrzynki – pełne złożonych mechanizmów, których działania nie są do końca zrozumiałe nawet dla ich twórców. Służą one różnorodnym celom, od obsługi klienta, przez generowanie kodu, aż po tłumaczenia, stając się pomocnikami w wielu dziedzinach. Jednak, mimo ich wszechstronności, badacze nadal próbują rozwikłać zagadkę, jak te ogromne systemy uczą się i odzyskują zgromadzoną wiedzę.

Niedawne badania przeprowadzone przez zespół naukowców z MIT i innych ośrodków rzucają światło na ten proces, odkrywając, że LLM wykorzystują zaskakująco prosty mechanizm do pobierania informacji. Okazuje się, że te skomplikowane systemy posługują się funkcją liniową, która umożliwia im odzyskiwanie i dekodowanie przechowywanych faktów. Co więcej, ta sama funkcja jest używana do odzyskiwania podobnych typów informacji, co upraszcza proces wyszukiwania wiedzy w rozległych bazach danych, na których są szkolone.

Naukowcy odkryli, że dzięki identyfikacji i analizie tych prostych funkcji liniowych mogą badać modele pod kątem ich zawartości wiedzy na nowe tematy oraz lokalizować przechowywane informacje. To odkrycie otwiera drogę do poprawy dokładności modeli poprzez korygowanie nieprawidłowych danych, co może znacznie zmniejszyć ryzyko generowania przez nie błędnych lub mylących odpowiedzi.

Evan Hernandez, absolwent inżynierii elektrycznej i informatyki (EECS) z MIT i jeden ze współautorów badań, podkreśla, że choć modele te są skonstruowane z niezwykle złożonych, nieliniowych funkcji, czasem kierują nimi proste mechanizmy. Wspólna praca badaczy z MIT, Uniwersytetu Northeastern, Uniwersytetu Harvarda i Izraelskiego Instytutu Technologii, która zostanie zaprezentowana na Międzynarodowej Konferencji na temat Uczenia się Reprezentacji (ICLR 2024), ukazuje nowe perspektywy na to, jak LLM przechowują i wykorzystują wiedzę.

W trakcie badań zespół zastosował metodę, która umożliwia identyfikację i szacowanie prostych funkcji liniowych w modelach, a następnie zbadali, jak te funkcje są wykorzystywane do odzyskiwania informacji o różnych faktach. Pomimo ogromnej złożoności LLM, wykorzystywanie przez nie prostych funkcji liniowych do dekodowania informacji stanowi dowód na to, że nawet najbardziej skomplikowane systemy mogą opierać się na podstawowych zasadach matematycznych.

Kluczowym aspektem badań jest odkrycie, że modele mogą zawierać prawidłowe informacje nawet wtedy, gdy na pierwszy rzut oka wydaje się, że udzielają błędnej odpowiedzi. To odkrycie ma potencjalne zastosowanie w poprawie dokładności LLM poprzez identyfikację i korygowanie nieprawdziwych informacji, co w przyszłości może pomóc zminimalizować ilość błędów generowanych przez te systemy.

Oprócz lepszego zrozumienia mechanizmów działania LLM, naukowcy opracowali także narzędzie wizualizacyjne, tzw. „soczewkę atrybutów”, która pozwala na śledzenie, gdzie w wielowarstwowych strukturach modelu przechowywane są konkretne informacje. To narzędzie może ułatwić badaczom analizę i korygowanie zawartości modeli, a tym samym poprawić ich dokładność i wiarygodność.

Te odkrycia rzucają nowe światło na działanie dużych modeli językowych i otwierają drogę do dalszych badań, które mogą znacząco wpłynąć na rozwój i optymalizację technologii sztucznej inteligencji. Poprzez głębsze zrozumienie, w jaki sposób LLM kodują i odzyskują informacje, możemy nie tylko usprawnić ich zdolność do generowania bardziej precyzyjnych i wiarygodnych odpowiedzi, ale także otworzyć nowe możliwości wykorzystania tych modeli w różnych dziedzinach – od edukacji po medycynę.

Jedną z najważniejszych implikacji tych badań jest potencjalna możliwość usunięcia uprzedzeń i fałszywych informacji z modeli AI. Poprzez precyzyjne identyfikowanie i korygowanie błędów w przechowywanej wiedzy, możliwe staje się tworzenie bardziej etycznych i sprawiedliwych systemów sztucznej inteligencji, które lepiej służą społeczeństwu. Ponadto, rozwój narzędzi, takich jak „soczewka atrybutów”, może znacząco przyspieszyć proces badawczy, umożliwiając naukowcom szybkie i skuteczne diagnozowanie oraz naprawianie błędów w dużych modelach językowych.

Szymon Ślubowski

SUBSKRYBUJ „GAZETĘ NA NIEDZIELĘ” Oferta ograniczona: subskrypcja bezpłatna do 31.08.2024.