Jak blisko jesteśmy stworzenia eksperckiej sztucznej inteligencji
Scale AI i CAIS szukają pytań, które skutecznie opowiedzą na pytanie: Jak blisko jesteśmy stworzenia eksperckiej sztucznej inteligencji.
Dwie wiodące firmy z San Francisco, zajmujące się sztuczną inteligencją, wezwały społeczeństwo do stworzenia pytań, które będą w stanie przetestować możliwości modeli językowych, takich jak Google Gemini i OpenAI o1. Scale AI, specjalizująca się w przygotowywaniu ogromnych ilości danych, na których uczone są modele językowe, połączyła siły z Centrum Bezpieczeństwa AI (CAIS), aby uruchomić inicjatywę pod nazwą „Ostatni Egzamin Ludzkości”. Celem tej inicjatywy jest przetestowanie, jak blisko jesteśmy stworzenia sztucznej inteligencji na poziomie eksperckim, przy współpracy największej koalicji ekspertów w historii.
Za najlepsze 50 pytań wybrane do testu przewidziano nagrody w wysokości 5 000 dolarów. Wyzwanie ma na celu przetestowanie zdolności obecnych modeli językowych do rzeczywistego rozumienia i analizowania informacji, a nie jedynie przyswajania gotowych odpowiedzi, co jest szczególnie trudne w przypadku dużych ilości danych, na których te modele są trenowane. Modele takie jak Google Gemini czy OpenAI o1 mają za zadanie udowodnić, że potrafią radzić sobie z wyzwaniami, które nie były wcześniej przyswojone podczas treningu.
Sztuczna inteligencja przeszła olbrzymią zmianę paradygmatu, od tradycyjnego podejścia komputerowego, polegającego na programowaniu, do podejścia opartego na „pokazywaniu” maszynom, co mają robić, za pomocą danych treningowych. W rezultacie dobre dane treningowe oraz odpowiednie testy stają się kluczowe dla rozwoju sztucznej inteligencji. Problemem pozostaje jednak to, że obecne testy, na przykład egzaminy prawnicze, są znane modelom i mogą być przez nie wcześniej nauczone, co stawia pod znakiem zapytania ich rzeczywistą wartość. Szacuje się, że w 2028 roku sztuczna inteligencja będzie w stanie przetworzyć wszystkie dostępne teksty napisane przez ludzi, co jeszcze bardziej utrudni ocenę jej rzeczywistych możliwości.
Wyzwanie to pogłębia się wraz z rozwojem internetu, który codziennie wzbogaca się o miliony nowych treści, co może prowadzić do tzw. „upadku modelu”. Zjawisko to polega na tym, że internet zaczyna być zalewany treściami generowanymi przez AI, które następnie są używane do dalszego treningu, co może prowadzić do obniżenia jakości tych modeli. Aby temu zapobiec, wielu twórców sztucznej inteligencji zbiera dane z interakcji modeli z ludźmi, dodając nowe dane treningowe i testowe.
Niektórzy specjaliści twierdzą, że AI powinna również „ucieleśnić się”, poruszać się w rzeczywistym świecie i zdobywać własne doświadczenia, tak jak ludzie. Może się to wydawać odległe, ale przykładem takiego podejścia są samochody Tesli, które uczą się na podstawie realnych sytuacji na drodze. Inne możliwości to noszone przez ludzi urządzenia, takie jak inteligentne okulary Meta, które mogą zbierać ogromne ilości danych wizualnych i dźwiękowych, pozwalając AI na rozwijanie zrozumienia otaczającego świata.
Nawet jeśli w przyszłości uda się zapewnić wystarczającą ilość danych do treningu, pozostaje problem definiowania i mierzenia inteligencji, zwłaszcza ogólnej sztucznej inteligencji (AGI), czyli AI równej lub przewyższającej inteligencję człowieka. Tradycyjne testy IQ były od dawna krytykowane za niezdolność do uchwycenia złożoności ludzkiej inteligencji, obejmującej różne aspekty, takie jak język, matematyka, empatia czy orientacja przestrzenna.
Podobny problem występuje w przypadku testów stosowanych na sztucznej inteligencji. Istnieje wiele ugruntowanych testów, które sprawdzają takie zadania, jak streszczanie tekstów, rozumienie informacji, rozpoznawanie pozycji i gestów człowieka czy wizję maszynową. Jednak wiele z tych testów jest na tyle specyficznych, że nie stanowią one dobrego miernika ogólnej inteligencji. Przykładem jest AI grająca w szachy – Stockfish, który znacznie przewyższa umiejętności najlepszego ludzkiego gracza, Magnusa Carlsena, ale nie jest w stanie wykonywać innych zadań, takich jak rozumienie języka.
Aby zmierzyć prawdziwe zdolności sztucznej inteligencji, francuski inżynier Google, François Chollet, zaproponował nowe podejście oparte na zdolności adaptacji i generalizacji. Stworzył on zestaw zagadek znany jako „abstraction and reasoning corpus” (ARC), który ma na celu sprawdzenie zdolności AI do wyciągania wniosków i stosowania abstrakcyjnych zasad. Zagadki te nie są trudne dla ludzi, ale sztuczna inteligencja ma problem z ich rozwiązywaniem, ponieważ wymaga to elastycznego podejścia i umiejętności analizy nowych sytuacji.
Pomimo że test ARC pozostaje jednym z najbardziej wiarygodnych sposobów sprawdzenia inteligencji AI, inicjatywa Scale i CAIS pokazuje, że poszukiwania nowych, przekonujących alternatyw trwają. Co ciekawe, niektóre z pytań nagrodzonych w tej inicjatywie mogą nigdy nie trafić do internetu, aby zapobiec ich przyswojeniu przez modele językowe.
Zrozumienie, kiedy maszyny zbliżają się do poziomu ludzkiego rozumowania, jest kluczowe ze względu na kwestie bezpieczeństwa, etyczne i moralne, które się z tym wiążą. Kiedy osiągniemy ten punkt, może nas czekać jeszcze trudniejsze zadanie: sprawdzenie, jak testować superinteligencję, co jest jeszcze bardziej złożonym wyzwaniem, które musimy rozwiązać.
Szymon Ślubowski