Modele AI generujące obrazy potrzebują korekty

25 czerwca 2024, Szymon ŚLUBOWSKI
BIT Biznes i Technologie

Modele AI generujące obrazy tworzą nowe zdjęcia na podstawie opisów tekstowych, często jednak popełniając błędy ze względu na ograniczenia.

Modele w dużej mierze opierają się na postępach w sztucznej inteligencji i mają znaczące zastosowania w różnych dziedzinach. Aby uzyskać wysokiej jakości wyniki, modele te są trenowane na ogromnych zbiorach danych par obraz-tekst, takich jak dopasowywanie frazy „zdjęcie psa” do rzeczywistych zdjęć psów miliony razy. Dzięki procesowi model uczy się generować nowe obrazy na podstawie podobnych opisów.

Jednakże, jak zauważają doktoranci Hadas Orgad i Bahjat Kawar z Wydziału Informatyki Henry’ego i Marilyn Taub, modele dziedziczą zarówno użyteczne, jak i problematyczne założenia z danych treningowych. Przydatne założenia, takie jak „niebo jest niebieskie”, pomagają modelowi tworzyć dokładne obrazy z prostych opisów. Jednak modele wizualizują również uprzedzenia społeczne i nieprawidłowe założenia. Przykładowo, zapytanie o wizerunek CEO w Stable Diffusion, popularnym generatorze obrazów, daje zdjęcia kobiet tylko w 4% przypadków, podkreślając uprzedzenia ze względu na płeć.

Ponadto mają trudności z nadążaniem za zmianami w świecie rzeczywistym po zakończeniu szkolenia. Dana Arad, inna doktorantka na Wydziale Taub, wyjaśnia, że chociaż modele uczą się wielu faktycznych informacji podczas szkolenia, stają się one nieaktualne. Na przykład, generator obrazów może nadal przedstawiać Donalda Trumpa jako prezydenta Stanów Zjednoczonych, mimo że jego kadencja dobiegła końca.

Konwencjonalne podejście do rozwiązywania tych problemów obejmuje ciągłe aktualizacje danych, ponowne szkolenie lub dostrajanie modeli. Metody są jednak kosztowne zarówno pod względem zasobów finansowych, jak i obciążeń obliczeniowego. Mają one również wpływ na środowisko ze względu na wydłużone działanie serwerów komputerowych. Co więcej, rozwiązania nie gwarantują kontroli nad istniejącymi uprzedzeniami ani nie zapobiegają pojawianiu się nowych.

Pod kierunkiem dr Yonatana Belinkova, Orgad i Kawar opracowali metodę o nazwie TIME (Text-to-Image Model Editing), która skutecznie koryguje uprzedzenia i założenia bez obszernego przekwalifikowania. TIME obejmuje ponowną edycję tylko około 1,95% parametrów modelu, a proces ten zajmuje mniej niż sekundę, unikając w ten sposób konieczności całkowitego dostrojenia lub zmiany podstawowych narzędzi przetwarzania języka modelu.

Opierając się na TIME, naukowcy we współpracy z uniwersytetami Northeastern i MIT opracowali UCE (Unwanted Content Eraser). Metoda pozwala na usuwanie nieetycznych zachowań z modelu, takich jak eliminowanie uprzedzeń społecznych lub unikanie naruszeń praw autorskich poprzez edycję skojarzeń modelu z obraźliwymi treściami lub określonymi stylami artystycznymi.

Następnie Arad i Orgad wprowadzili kolejną metodę o nazwie ReFACT. Podejście obejmuje jeszcze mniejszy odsetek edycji parametrów – tylko 0,25% – umożliwiając szerszy zakres edycji przy jednoczesnym zachowaniu integralności jakości modelu i założeń faktycznych. ReFACT okazał się skuteczny w scenariuszach, w których poprzednie metody zawiodły, zapewniając bardziej precyzyjny sposób aktualizacji modelu.

Metody opierają się na danych wejściowych użytkownika dotyczących konkretnych faktów lub założeń, które chcą edytować. Na przykład, aby zmienić niejawne założenia, użytkownicy podają „źródło” (bieżące ustawienie domyślne, takie jak „czerwone róże”) i „cel” (pożądana zmiana, taka jak „niebieskie róże”). W przypadku edycji ról użytkownicy mogą żądać aktualizacji, określając jednostki „źródłowe” i „docelowe” (np. zmiana „prezydenta Stanów Zjednoczonych” z „Donalda Trumpa” na „Joe Bidena”).

Przetestowano metode na około 200 przykładach, wykazując ich skuteczność w aktualizowaniu informacji i korygowaniu uprzedzeń. TIME został zaprezentowany na konferencji ICCV w październiku 2023 r., UCE na konferencji WACV, a ReFACT na konferencji NAACL w Meksyku.

Zwalczanie uprzedzeń w modelach generatorów obrazu ma kluczowe znaczenie dla zapewnienia uczciwości i dokładności treści generowanych przez sztuczną inteligencję. Innowacyjne metody opracowane przez Orgada, Kawara i Arada, kierowane przez dr Belinkova, oferują skuteczne rozwiązania, które znacznie zmniejszają potrzebę intensywnego przekwalifikowania. Postępy nie tylko zwiększają niezawodność generatorów obrazu, ale także torują drogę do bardziej etycznych zastosowań sztucznej inteligencji w przyszłości.

Szymon Ślubowski

SUBSKRYBUJ „GAZETĘ NA NIEDZIELĘ” Oferta ograniczona: subskrypcja bezpłatna do 31.08.2024.