wikipedia

Sztuczna inteligencja szansą dla wiarygodności Wikipedii

Badania wykazały, że sztuczna inteligencja potrafi skutecznie klasyfikować źródła jako nieweryfikowalne i proponować lepszą alternatywę.

Wikipedia jest dziś globalną encyklopedią internetową. Jej rosnąca popularność i dostępność sprawiają, że stała się nieodłącznym elementem codziennego życia ludzi na całym świecie. Jednak jej otwarta struktura, która pozwala każdemu edytować treść, rodziła dotąd wciąż pytania dotyczące jej wiarygodności.

Wśród licznych opinii na temat Wikipedii, Nicholson Baker, uznany amerykański powieściopisarz, postrzega ją jako niesamowite źródło danych, które oferuje szeroki zakres informacji na różne tematy. Z kolei Oscar Auliq-Ice, pisarz i komentator kulturowy, uważa Wikipedię za narzędzie, które przekształciło sposób, w jaki ludzie korzystają z informacji, czyniąc wiedzę bardziej dostępną dla mas. Steven Magee, ekspert ds. środowiska, porównuje Wikipedię do klombu, sugerując, że ma ona zarówno piękne, jak i problematyczne aspekty. Natomiast Tara Brabazon, dziekan studiów podyplomowych i profesor kulturoznawstwa, wyraża swoje obawy dotyczące niektórych treści na Wikipedii, które mogą być mylące lub nieścisłe.

W odpowiedzi na te obawy, naukowcy wprowadzili technologię o nazwie SIDE, system sztucznej inteligencji mający na celu poprawę wiarygodności źródeł na Wikipedii. SIDE został stworzony, aby pomóc w identyfikacji i korekcie błędnych informacji, które mogą się pojawić na stronach wirtualnej encyklopedii.

Badania wykazały, że sztuczna inteligencja potrafi skutecznie klasyfikować źródła jako nieweryfikowalne i proponować lepszą alternatywę. W wielu przypadkach rekomendacje SIDE były zgodne z tymi, które Wikipedia oferowała jako pierwsze odniesienie. To odkrycie jest przełomowe i może przyczynić się do zwiększenia zaufania dla osób, które poszukują tam treści.

Kluczowym elementem SIDE jest zaawansowany silnik wyszukiwania, który analizuje twierdzenia i odnosi się do ogromnej bazy danych, aby znaleźć odpowiednie źródła. Jednym z jego podsystemów jest „gęste odzyskiwanie” (dense retrieval). Jest to sieć neuronowa, która uczy się na podstawie danych z Wikipedii, aby zakodować kontekst cytatu w gęstym wektorze zapytania. Ten wektor jest następnie dopasowywany do kodowań wektorowych wszystkich fragmentów w Sphere, a najbliższe z nich są zwracane. „Sphere” jest miejscem, gdzie odbywa się wyszukiwanie odpowiednich fragmentów na podstawie dopasowania gęstych wektorów zapytań.

Gęste odzyskiwanie jest metodą, która uczy się osadzać zapytania i dokumenty jako niskowymiarowe gęste wektory. Podstawowym elementem gęstego odzyskiwania jest BERT, służący do odkodowania, przetwarza on sekwencję zapytań i przewiduje jeden gęsty wektor. Składa się on z dwóch systemów odkodowania, jednego dla zapytania i jednego dla fragmentu dokumentu. Jest on następnie szkolony na zbiorze danych z instancjami składającymi się z krotek (zapytanie, poprawny dokument). Celem szkolenia jest maksymalizacja podobieństwa między wektorem zapytania a wektorami fragmentów poprawnego dokumentu przy użyciu metryki iloczynu skalarnego oraz minimalizacja podobieństwa dla niepoprawnych dokumentów. Gęste odzyskiwanie może nauczyć się, które części tekstu są prawdopodobnie ważnymi elementami. Kolejną zaletą jest to, że jest ono zwykle silniejsze w odzyskiwaniu fragmentów z przepisanymi wersjami twierdzenia.

Mając twierdzenie i możliwy dokument dowodowy, zarówno na Wikipedii, jak i proponowany przez silnik odzyskiwania, człowiek dokładnie oceniłby, na ile twierdzenie jest wspierane przez dostarczone dowody. To jest rola, którą pełni silnik weryfikacji, sieć neuronowa przyjmująca twierdzenie i dokument jako dane wejściowe i przewidująca, jak dobrze wspiera twierdzenie. Ze względów wydajności działa on na poziomie fragmentu i oblicza wynik weryfikacji dokumentu jako maksimum z jego wyników. Wyniki weryfikacji są obliczane przez dostrojony transformator BERT, który używa twierdzenia i fragmentu tekstu jako danych wejściowych. Ta architektura jest podobna do wcześniejszych prac nad wnioskowaniem tekstowym w wnioskowaniu w języku naturalnym.

Ocena wydajności systemu weryfikacji jakości informacji z użyciem sztucznej inteligencji jest skomplikowana, ale wstępne wyniki są obiecujące. SIDE ma potencjał, aby stać się ważnym narzędziem w procesie weryfikacji treści na Wikipedii. Jego zdolność do identyfikacji i korekty błędnych informacji może przyczynić się do zwiększenia zaufania użytkowników do treści na największym globalnym portalu wiedzy.

Szymon Ślubowski

SUBSKRYBUJ „GAZETĘ NA NIEDZIELĘ” Oferta ograniczona: subskrypcja bezpłatna do 31.08.2024.

Strona wykorzystuje pliki cookie w celach użytkowych oraz do monitorowania ruchu. Przeczytaj regulamin serwisu.

Zgadzam się