Gorączka złota danych szkoleniowych przeznaczonych dla AI
„Gorączka złota” danych grozi wyczerpaniem ludzkich tekstów do szkolenia AI w najbliższych latach co może prowadzić do „upadki modeli”.
W ostatnich latach sztuczna inteligencja (AI), zwłaszcza chatboty, przeżywała prawdziwą gorączkę złota. Firmy technologiczne jak OpenAI, twórcy ChatGPT, oraz Google, inwestują ogromne zasoby w zdobywanie danych szkoleniowych, które są niezbędne do ulepszania swoich modeli językowych. Ale co się stanie, gdy zabraknie tych danych?
Dane szkoleniowe to podstawa, na której budowane są modele AI. Chatboty, takie jak ChatGPT, są trenowane na miliardach zdań, aby mogły generować sensowne i trafne odpowiedzi. Teksty te pochodzą z różnych źródeł, takich jak artykuły, wpisy na blogach, komentarze na forach i mediach społecznościowych.
Badanie przeprowadzone przez Epoch AI przewiduje, że zapasy ogólnodostępnych tekstów ludzkich mogą się wyczerpać do końca tej dekady, między 2026 a 2032 rokiem. Przyczyną tego jest coraz większe zapotrzebowanie na dane, które rośnie wraz z rozwojem sztucznej inteligencji.
Aby przeciwdziałać niedoborom danych, firmy technologiczne zawierają umowy z platformami takimi jak Reddit czy media informacyjne, aby mieć stały dostęp do nowych tekstów. Jednakże, w dłuższej perspektywie, ilość nowych treści nie będzie wystarczająca, aby utrzymać obecne tempo rozwoju AI.
Jedną z alternatyw jest używanie syntetycznych danych generowanych przez same chatboty. Jednak takie podejście ma swoje wady. Trening na danych wygenerowanych przez AI może prowadzić do tzw. „upadku modelu”, gdzie powtarzające się błędy i uprzedzenia są wzmacniane, a jakość generowanych tekstów ulega pogorszeniu.
Kolejnym problemem jest ekonomia. Płacenie milionom ludzi za tworzenie nowych tekstów jest nieopłacalne. Z kolei sam Altman, CEO OpenAI, przyznał, że generowanie ogromnych ilości syntetycznych danych nie jest idealnym rozwiązaniem i może być mało efektywne.
Dla wielu twórców, takich jak Wikipedia czy wydawcy książek, to jak ich prace są wykorzystywane przez AI, staje się coraz większym problemem. Wikipedia, na przykład, pozwala na szerokie wykorzystanie swoich treści, ale jej przedstawiciele obawiają się, że zalew „śmieciowych” treści generowanych automatycznie może zniechęcić ludzi do tworzenia wartościowych artykułów.
Eksperci sugerują, że kluczem do przyszłego rozwoju AI może być specjalizacja modeli w konkretnych zadaniach, zamiast ich dalsze powiększanie. Mniejsze, wyspecjalizowane modele mogą być równie skuteczne i mniej podatne na problemy związane z brakiem danych.
Przyszłość chatbotów i szeroko pojętej sztucznej inteligencji w dużej mierze zależy od znalezienia skutecznych sposobów na zaspokojenie rosnącego zapotrzebowania na dane szkoleniowe, jednocześnie dbając o jakość i etykę ich pozyskiwania.
Gorączka złota w zakresie danych szkoleniowych AI to zjawisko, które może mieć poważne konsekwencje dla przyszłości sztucznej inteligencji. Choć obecnie firmy technologiczne intensywnie poszukują nowych źródeł danych, wyczerpanie zasobów tekstów ludzkich jest realnym zagrożeniem. W obliczu tych wyzwań konieczne będzie innowacyjne podejście i rozwijanie nowych metod treningu modeli AI, aby mogły one nadal się rozwijać i służyć użytkownikom.
Szymon Ślubowski