
Sztuczna inteligencja nie rozumie kwiatów
Sztuczna inteligencja nie rozumie kwiatów ze względu na swoje ograniczone możliwości, które nadal głównie opierają się na tekście.
Na pierwszy rzut oka wydaje się, że sztuczna inteligencja potrafi wszystko. Generuje teksty, tworzy obrazy, pomaga w analizach, a nawet rozmawia z nami jak człowiek. Ale jak się okazuje i co potwierdza najnowsze badanie opublikowane w Nature Human Behaviour – AI nie potrafi zrozumieć kwiatu. Nie tak jak człowiek, który rozumie zapach w sposób głęboki, zmysłowy i osobisty.
Zespół badawczy pod kierownictwem dr. Qihui Xu z Ohio State University postanowił porównać, jak ludzie i najnowsze modele językowe – m.in. GPT-4 od OpenAI i PaLM od Google reprezentują znaczenie ponad 4 400 słów. W tym takich jak „kwiat”, „śmiech”, „makaron” czy „róża”.
Okazało się, że AI radzi sobie dobrze z pojęciami abstrakcyjnymi lub czysto semantycznymi. Ale gdy w grę wchodzi doświadczenie zmysłowe – dotyk, zapach, smak, ruch, maszyny zaczynają się gubić. Choć mogą znać definicję „kwiatu”, nie wiedzą, jak pachnie róża ani jak aksamitne są jej płatki.
Badacze nazwali to problemem uboższej reprezentacji koncepcyjnej. LLM (Large Language Models) uczą się świata poprzez tekst. Tekst to tylko jeden wymiar ludzkiego poznania. Ludzie uczą się, zanurzając się w świecie: widzą, dotykają, wąchają, biegają, śmieją się, jedzą.
Aby sprawdzić, jak AI i ludzie oceniają słowa, zespół badawczy wykorzystał dwa narzędzia psycholingwistyczne: Glasgow Norms i Lancaster Sensorimotor Norms. Pierwsze oceniają m.in. poziom pobudzenia emocjonalnego i łatwość wizualizacji danego słowa. Drugie badają, jak mocno dane pojęcie wiąże się z określonymi zmysłami i ruchem.
Dla człowieka „róża” to zapach, kolor, emocja, wspomnienie. Dla AI to zestaw słów, skojarzeń statystycznych i powiązań semantycznych.
Podstawowy problem to brak ciała. AI nie wącha, nie dotyka, nie rusza się. Nie posiada sensorium – czyli systemu zmysłowego, który pozwala poznawać świat nie tylko słowami, ale i całym sobą.
Dlatego, mimo całej swojej mocy obliczeniowej, modele językowe nie uczą się efektywnie. Zużywają miliony razy więcej danych niż człowiek, a wciąż nie rozumieją prostych, zmysłowych pojęć tak dobrze, jak przeciętny pięciolatek.
Jak ujęli to badacze: „Ludzkie poznanie splata różnorodne doznania w spójne kategorie. Kwiat to nie tylko obiekt – to doświadczenie.”
Nie wszystko jednak wygląda tak źle. Badanie wykazało, że modele uczone także na obrazach (np. GPT-4 z multimodalnymi możliwościami) radzą sobie lepiej z pojęciami wizualnymi niż modele tekstowe. To pokazuje, że im więcej kanałów poznawczych damy AI, tym bliżej będzie ludzkiego rozumienia.
Zresztą podobne wnioski płyną z innych badań. W artykule z MIT Technology Review z marca 2024 roku wskazano, że połączenie AI z robotyką i sensorami – tzw. embodied AI daje lepsze efekty przy nauce pojęć, które wymagają interakcji z otoczeniem. Systemy, które mogą poruszać się, manipulować przedmiotami, doświadczać oporu, światła, dźwięków – mają szansę zbliżyć się do ludzkiego rozumienia.
W kontekście sztuki, opieki zdrowotnej, edukacji czy relacji społecznych, brak ciała i doświadczenia oznacza, że AI nie może całkowicie zrozumieć nas – ludzi. I może nigdy nie powinna próbować.
Kwiat to więcej niż rzeczownik. To kolor, zapach, emocja, gest. To kontekst, który AI dopiero zaczyna rozumieć. I może właśnie w tym tkwi różnica między maszyną a człowiekiem: nie w tym, co wiemy, ale w tym, jak to przeżywamy.
Szymon Ślubowski
