ludzki sposób myślenia

Ludzki sposób myślenia pośród sztucznej inteligencji

W świecie sztucznej inteligencji trwa nieustanny wyścig o to, by maszyny lepiej rozumiały ludzki sposób myślenia. 

Najnowszy projekt badaczy z Uniwersytetu Michigan – Open Ad-Hoc Categorization (OAK) wnosi nową jakość do analizy obrazów przez AI, pozwalając jej dynamicznie interpretować ten sam obraz w różnych kontekstach. Pokazuje radykalne odejście od tradycyjnych modeli klasyfikacji, które traktują obrazy jako statyczne i jednoznaczne.

Dotąd systemy rozpoznawania obrazów działały w oparciu o stałe etykiety. Pies jest psem niezależnie od sytuacji. Ludzie jednak postrzegają obrazy w zależności od kontekstu. Widząc osobę w sklepie, możemy skupić się na jej nastroju, wykonywanej czynności albo otoczeniu – w zależności od potrzeby. OAK przenosi tę zdolność adaptacji do świata maszyn. W praktyce oznacza to, że AI może dostosowywać swoje rozumienie obrazu do konkretnego zadania, rozpoznawać emocje, miejsca, przedmioty czy działania, w zależności od kontekstu użytkownika.

Sekret elastyczności tkwi w zastosowaniu tzw. kontekstowych tokenów, czyli specjalnych danych, które instruują system, jakiego typu informacji powinien szukać. W odróżnieniu od modeli, które wymagają ogromnych zbiorów danych treningowych dla każdej nowej kategorii, OAK uczy się na podstawie kilku przykładów i wykorzystuje swoją „wiedzę ogólną” w nowatorski sposób. Co ważne, cały system oparto na architekturze CLIP od OpenAI, czyli popularnym modelu łączącym analizę obrazu i języka bez konieczności jego modyfikacji.

OAK potrafi nie tylko elastycznie interpretować obrazy, ale również odkrywać zupełnie nowe kategorie, które nie pojawiły się w danych treningowych. Gdy system nauczy się, że buty są sprzedawane na wyprzedażach garażowych, sam zasugeruje, że podobnie może być z walizkami czy czapkami nawet jeśli nie widział takich przykładów. Łączy przy tym dwa podejścia: semantyczne (top-down), oparte na języku, i wizualne (bottom-up), analizujące wzorce w nieopisanych danych. Dzięki temu może jednocześnie rozszerzać swoją „wyobraźnię” i potwierdzać odkrycia na podstawie wizualnych dowodów.

W testach przeprowadzonych na zestawach danych Stanford i Clevr-4, OAK osiągnął lepsze wyniki niż klasyczne modele, m.in. 87,4% skuteczności w rozpoznawaniu nastrojów lepiej o ponad 50% niż konkurenci. Co więcej, generowane przez system mapy uwagi dokładnie wskazywały, które fragmenty obrazu są istotne w danym kontekście, bez konieczności wcześniejszego programowania tej logiki.

Technologia ma ogromny potencjał praktyczny. W robotyce może umożliwić maszynom rozumienie przestrzeni i obiektów w sposób zależny od ich aktualnych zadań. W edukacji umożliwi tworzenie elastycznych materiałów wizualnych dostosowanych do różnych sposobów nauki. W ochronie zdrowia, kontekstową interpretację obrazów medycznych, zależną od historii pacjenta czy rodzaju diagnozy.

OAK wpisuje się w rosnący trend „kontekstualnej AI” , systemów zdolnych do adaptacyjnego rozumienia treści, nie tylko ich klasyfikowania. W podobnym kierunku idą projekty takie jak Gato od DeepMind czy multimodalne modele OpenAI, które łączą różne źródła informacji. Jednak to właśnie OAK pokazuje, jak z prostych narzędzi, kilku tokenów i nienaruszonego modelu bazowego można zbudować system o zdumiewającej elastyczności i inteligencji wizualnej. To krok w stronę AI, która widzi nie tylko to, co jest, ale i to, co może być ważne dokładnie tak, jak życzy sobie tego człowiek.

Szymon Ślubowski

SUBSKRYBUJ „GAZETĘ NA NIEDZIELĘ” Oferta ograniczona: subskrypcja bezpłatna do 31.12.2025.

Strona wykorzystuje pliki cookie w celach użytkowych oraz do monitorowania ruchu. Przeczytaj regulamin serwisu.

Zgadzam się