AI jeszcze nie zda egzaminu

AI jeszcze nie zda egzaminu na poziomie doktoranckim z historii

AI jeszcze nie zda egzaminu doktorskiego z historii, ale jest to nieuniknione już w niedługo, patrząc na paraboliczny wzrost dziedziny.

Rozwój sztucznej inteligencji wzbudza nadzieję na rewolucję w różnych dziedzinach nauki, od analizy danych po kreatywne pisanie. Jednak najnowsze badania wskazują, że AI wciąż ma poważne ograniczenia, szczególnie jeśli chodzi o rozumienie historii na poziomie eksperckim. Zespół naukowców pod kierownictwem Petera Turchina i Marii del Rio-Chanony postanowił sprawdzić, czy nowoczesne modele językowe, takie jak ChatGPT-4, Llama i Gemini, są w stanie zdać egzamin z historii na poziomie doktoranckim. Wyniki były zaskakujące – sztuczna inteligencja, mimo zaawansowanych algorytmów, wciąż nie dorównuje ludzkim historykom w interpretacji przeszłości.

Badanie opierało się na bazie danych Seshat Global History Databank, największym repozytorium usystematyzowanej wiedzy historycznej obejmującym informacje o 600 społeczeństwach na przestrzeni tysięcy lat. Naukowcy przeprowadzili eksperyment, w którym modele AI miały odpowiedzieć na pytania na poziomie akademickim, wymagające zarówno faktograficznej wiedzy, jak i umiejętności interpretacji źródeł historycznych.

Najlepiej w teście wypadł model GPT-4 Turbo, uzyskując 46% poprawnych odpowiedzi w czterech opcjach do wyboru. Choć wynik ten jest wyraźnie lepszy niż losowe zgadywanie (które dałoby wynik 25%), to wciąż daleki od poziomu, jakiego można by oczekiwać od wykwalifikowanego historyka. Najsłabszy model, Llama-3.1-8B, osiągnął wynik 33,6%.

Maria del Rio-Chanona, współautorka badania, przyznała, że spodziewała się lepszych wyników. „Historia często jest postrzegana jako zbiór faktów, ale interpretacja jest kluczowa do jej zrozumienia” – powiedziała. Jak się okazuje, to właśnie interpretacja stanowi największą barierę dla sztucznej inteligencji.

Analiza wyników ujawniła kilka istotnych trendów. Modele najlepiej radziły sobie z historią starożytną, szczególnie w okresie od 8000 do 3000 roku p.n.e. Jednak ich skuteczność znacząco spadała przy wydarzeniach bardziej współczesnych, zwłaszcza od 1500 roku do dziś.

Różnice były także widoczne w odniesieniu do poszczególnych regionów geograficznych. Modele OpenAI miały większą dokładność w pytaniach dotyczących Ameryki Łacińskiej i Karaibów, podczas gdy Llama lepiej radziła sobie z historią Ameryki Północnej. Najgorzej wypadły pytania dotyczące Afryki Subsaharyjskiej i Oceanii, co sugeruje potencjalne uprzedzenia w danych treningowych modeli.

To odkrycie nie jest zaskakujące – większość treści, na których szkolone są modele językowe, pochodzi z anglojęzycznych źródeł, a dominują w nich narracje dotyczące historii Europy i Ameryki Północnej. Nierówna reprezentacja globalnej historii stanowi poważne wyzwanie dla twórców AI, którzy muszą znaleźć sposoby na bardziej zróżnicowane szkolenie swoich systemów.

Szczegółowa analiza pokazała również, w jakich obszarach modele radzą sobie najlepiej. Najwyższe wyniki osiągały w pytaniach dotyczących systemów prawnych i struktury społecznej. Najsłabiej wypadły w tematach związanych z dyskryminacją i mobilnością społeczną, co pokazuje, że AI wciąż ma trudności z rozpoznawaniem złożonych zjawisk społecznych i ich kontekstu historycznego.

To potwierdza wcześniejsze badania nad zdolnościami AI w dziedzinach humanistycznych. Modele językowe świetnie radzą sobie z przetwarzaniem i organizowaniem informacji, ale ich zdolność do głębokiej analizy i wyciągania wniosków jest ograniczona. O ile można im powierzyć zadania związane z wyszukiwaniem faktów, o tyle wymagające interpretacji kwestie historyczne pozostają dla nich wyzwaniem.

Naukowcy biorący udział w badaniu podkreślają, że ich celem nie jest krytyka AI, ale stworzenie solidnych benchmarków, które pomogą w dalszym rozwoju technologii. Jak zauważa Jakob Hauser, współautor badania, w kolejnych etapach eksperymentów planowane jest rozszerzenie bazy danych testowych o większą liczbę informacji z mniej reprezentowanych regionów świata oraz dodanie bardziej złożonych pytań.

Sztuczna inteligencja osiągnęła imponujące wyniki w wielu dziedzinach, ale historia pozostaje dla niej wyzwaniem. Modele językowe potrafią dobrze analizować proste fakty, ale ich zdolność do interpretacji bardziej skomplikowanych zagadnień historycznych jest ograniczona. Braki w danych, geograficzne uprzedzenia oraz trudność w rozumieniu procesów społecznych sprawiają, że AI nie jest jeszcze gotowa do zastąpienia historyków na poziomie doktoranckim.

Szymon Ślubowski

SUBSKRYBUJ „GAZETĘ NA NIEDZIELĘ” Oferta ograniczona: subskrypcja bezpłatna do 30.04.2025.

Strona wykorzystuje pliki cookie w celach użytkowych oraz do monitorowania ruchu. Przeczytaj regulamin serwisu.

Zgadzam się