metoda DND

Nowa metoda DND szybsza i wydajniejsza niż DALLE-3

Metoda DND po testach w wielu środowiskach pokazała, że nie ustępuje pod względem jakości modelom jak DALLE-3, pomimo swojej szybkości.

Era sztucznej inteligencji (AI) niesie ze sobą obietnicę transformacji sztuki i wizualizacji dzięki nowym metodom generowania obrazów. Dotychczasowe modele dyfuzyjne, działając iteracyjnie, sukcesywnie dodawały strukturę do zaszumionego obrazu początkowego, stopniowo odsłaniając wyraźne wizje czy pejzaże. Ta zdolność do kreowania artystycznych dzieł, łączących realność z fantazją, zdobyła już uznanie użytkowników, choć proces ten wymagał czasu i wielu iteracji, by doskonalić generowane obrazy.

Jednak grupa badawcza z MIT Computer Science and Artificial Intelligence Laboratory (CSAIL) osiągnęła nowy poziom wykorzystania danej technologii, przedstawiając metodę, która potrafi uprościć wieloetapowy proces modeli dyfuzyjnych do zaledwie jednego kroku. Ta metoda, opierająca się na mechanizmie modelu nauczyciel-uczeń, pozwala na naśladowanie zachowań skomplikowanych modeli generowania obrazów przez nowy, prostszy model komputerowy. Metoda ta, określana mianem destylacji dopasowania dystrybucji (DMD), zrewolucjonizuje prędkość generowania wysokiej jakości obrazów, zachowując ich znakomitą jakość.

Tianwei Yin, doktorant na MIT i kluczowy badacz projektu DMD, podkreśla, że nowa metoda przyspiesza generowanie obrazów aż trzydziestokrotnie w porównaniu do obecnych modeli, takich jak Stable Diffusion czy DALLE-3, nie tracąc na jakości wizualnej. DMD reprezentuje synteze zasad działania generatywnych sieci przeciwstawnych (GAN) i modeli dyfuzyjnych, co pozwala na efektywną kreację treści wizualnych w jednym kroku, omijając konieczność iteracyjnego doskonalenia obrazu.

Opracowanie jednoetapowego modelu dyfuzyjnego otwiera nowe perspektywy dla narzędzi projektowych, pozwalając na szybsze tworzenie treści. Może znaleźć zastosowanie w takich dziedzinach jak odkrywanie nowych leków czy modelowanie 3D, gdzie prędkość i skuteczność są kluczowe.

DMD wyróżnia się unikalnym połączeniem dwóch elementów: straty regresji, która stabilizuje proces nauki przez organizację przestrzeni obrazów, oraz straty dopasowania rozkładu, zapewniającej zgodność prawdopodobieństwa generowania obrazów z ich rzeczywistą częstotliwością występowania. Dzięki wykorzystaniu dwóch modeli dyfuzyjnych jako przewodników, DMD skraca czas szkolenia nowego generatora, umożliwiając szybką produkcję obrazów o wysokiej jakości.

Metoda ta została przetestowana na różnych benchmarkach, wykazując swoją wydajność. W popularnym benchmarku generowania obrazów ImageNet, DMD jako pierwsza jednoetapowa technika dyfuzji osiągnęła obrazy porównywalne z tymi generowanymi przez bardziej złożone modele, osiągając wynik odległości początkowej Frécheta (FID) bliski 0,3, co świadczy o wysokiej jakości i różnorodności wizualizacji.

Pomimo tych osiągnięć, istnieją pewne ograniczenia, takie jak wyzwania związane z generowaniem tekstu na obraz, gdzie DMD wciąż ma pole do poprawy. Ponadto, jakość obrazów DMD jest ściśle związana z zaawansowaniem modelu nauczyciela, z którego czerpie wiedzę, co wskazuje na możliwość dalszego usprawnienia poprzez korzystanie z bardziej zaawansowanych modeli.

Fred Durand, profesor z MIT i główny badacz CSAIL, podkreśla znaczenie tej innowacji dla modeli dyfuzyjnych, wskazując na potencjał znaczącego obniżenia kosztów obliczeniowych i przyspieszenia procesu tworzenia obrazów. Ta przełomowa praca otwiera nowe możliwości dla edycji wizualnej w czasie rzeczywistym, łącząc wysoką jakość modeli dyfuzyjnych z szybkością generatywnych sieci przeciwstawnych.

Szymon Ślubowski

SUBSKRYBUJ „GAZETĘ NA NIEDZIELĘ” Oferta ograniczona: subskrypcja bezpłatna do 31.08.2024.

Strona wykorzystuje pliki cookie w celach użytkowych oraz do monitorowania ruchu. Przeczytaj regulamin serwisu.

Zgadzam się