Ludzki sposób myślenia pośród sztucznej inteligencji
W świecie sztucznej inteligencji trwa nieustanny wyścig o to, by maszyny lepiej rozumiały ludzki sposób myślenia.
Najnowszy projekt badaczy z Uniwersytetu Michigan – Open Ad-Hoc Categorization (OAK) wnosi nową jakość do analizy obrazów przez AI, pozwalając jej dynamicznie interpretować ten sam obraz w różnych kontekstach. Pokazuje radykalne odejście od tradycyjnych modeli klasyfikacji, które traktują obrazy jako statyczne i jednoznaczne.
Dotąd systemy rozpoznawania obrazów działały w oparciu o stałe etykiety. Pies jest psem niezależnie od sytuacji. Ludzie jednak postrzegają obrazy w zależności od kontekstu. Widząc osobę w sklepie, możemy skupić się na jej nastroju, wykonywanej czynności albo otoczeniu – w zależności od potrzeby. OAK przenosi tę zdolność adaptacji do świata maszyn. W praktyce oznacza to, że AI może dostosowywać swoje rozumienie obrazu do konkretnego zadania, rozpoznawać emocje, miejsca, przedmioty czy działania, w zależności od kontekstu użytkownika.
Sekret elastyczności tkwi w zastosowaniu tzw. kontekstowych tokenów, czyli specjalnych danych, które instruują system, jakiego typu informacji powinien szukać. W odróżnieniu od modeli, które wymagają ogromnych zbiorów danych treningowych dla każdej nowej kategorii, OAK uczy się na podstawie kilku przykładów i wykorzystuje swoją „wiedzę ogólną” w nowatorski sposób. Co ważne, cały system oparto na architekturze CLIP od OpenAI, czyli popularnym modelu łączącym analizę obrazu i języka bez konieczności jego modyfikacji.
OAK potrafi nie tylko elastycznie interpretować obrazy, ale również odkrywać zupełnie nowe kategorie, które nie pojawiły się w danych treningowych. Gdy system nauczy się, że buty są sprzedawane na wyprzedażach garażowych, sam zasugeruje, że podobnie może być z walizkami czy czapkami nawet jeśli nie widział takich przykładów. Łączy przy tym dwa podejścia: semantyczne (top-down), oparte na języku, i wizualne (bottom-up), analizujące wzorce w nieopisanych danych. Dzięki temu może jednocześnie rozszerzać swoją „wyobraźnię” i potwierdzać odkrycia na podstawie wizualnych dowodów.
W testach przeprowadzonych na zestawach danych Stanford i Clevr-4, OAK osiągnął lepsze wyniki niż klasyczne modele, m.in. 87,4% skuteczności w rozpoznawaniu nastrojów lepiej o ponad 50% niż konkurenci. Co więcej, generowane przez system mapy uwagi dokładnie wskazywały, które fragmenty obrazu są istotne w danym kontekście, bez konieczności wcześniejszego programowania tej logiki.
Technologia ma ogromny potencjał praktyczny. W robotyce może umożliwić maszynom rozumienie przestrzeni i obiektów w sposób zależny od ich aktualnych zadań. W edukacji umożliwi tworzenie elastycznych materiałów wizualnych dostosowanych do różnych sposobów nauki. W ochronie zdrowia, kontekstową interpretację obrazów medycznych, zależną od historii pacjenta czy rodzaju diagnozy.
OAK wpisuje się w rosnący trend „kontekstualnej AI” , systemów zdolnych do adaptacyjnego rozumienia treści, nie tylko ich klasyfikowania. W podobnym kierunku idą projekty takie jak Gato od DeepMind czy multimodalne modele OpenAI, które łączą różne źródła informacji. Jednak to właśnie OAK pokazuje, jak z prostych narzędzi, kilku tokenów i nienaruszonego modelu bazowego można zbudować system o zdumiewającej elastyczności i inteligencji wizualnej. To krok w stronę AI, która widzi nie tylko to, co jest, ale i to, co może być ważne dokładnie tak, jak życzy sobie tego człowiek.
Szymon Ślubowski
