J-Moshi japoński przełom w konwersacji ze sztuczną inteligencją
J-moshi to japoński wirtualny asystent, który nie tylko odpowiada na twoje pytania, ale rozmawia z tobą jak prawdziwy Japończyk .
Przerywa uprzejmym „Sou desu ne” czy „Naruhodo”, potakuje słowem w trakcie rozmowy, pokazując, że słucha. Tak właśnie działa J-Moshi, który jest pierwszym publicznie dostępnym systemem AI, który potrafi prowadzić naturalny dialog po japońsku, rozumiejąc i stosując aizuchi, czyli drobne, ale niezwykle istotne sygnały potwierdzenia.
Zespół profesora Ryuichiro Higashinaki’ego z Nagoya University udowodnił, że sztuczna inteligencja może lepiej naśladować sposób, w jaki ludzie komunikują się na co dzień, uwzględniając niuanse języka i kultury. Kluczowe było nie tylko przeniesienie anglojęzycznego modelu Moshi na grunt japoński, ale także wykorzystanie ogromnych zasobów mowy od podcastów po archiwalne nagrania, aby system potrafił słuchać i odpowiadać jednocześnie.
W japońskiej kulturze rozmowy przerwy i krótkie potwierdzenia świadczą o szacunku, empatii i aktywnym słuchaniu. Tego elementu dotąd brakowało botom i asystentom głosowym. Zwłaszcza w języku japońskim, gdzie sposób mówienia to nie tylko słowa, ale i rytm czy ton.
Choć J-Moshi to technologiczny hit w Japonii, jest też elementem większej dyskusji o tym, jak AI może lepiej rozumieć człowieka. Podobne wyzwania stają przed anglojęzycznymi systemami w USA, czy Europie rozwijane są modele, które próbują imitować ludzką konwersację z uwzględnieniem modulacji głosem, intonacji, przerw czy sygnałów niewerbalnych. OpenAI jak i Google pracują nad tym, by chatboty nie brzmiały jak encyklopedia, lecz jak partner w rozmowie.
J-Moshi już znajduje zastosowanie jako narzędzie edukacyjne dla cudzoziemców uczących się języka. Dla wielu uczniów kluczowe jest nie tylko poznanie słów, ale zrozumienie, jak i kiedy je wypowiedzieć, a tego najlepiej nauczyć się w dialogu z „żywym” partnerem, nawet jeśli to partner AI.
To jednak dopiero początek. Profesor Higashinaka i jego zespół testują technologię w miejscach takich jak akwarium NIFREL w Osace, gdzie roboty-przewodnicy z J-Moshi prowadzą proste rozmowy z odwiedzającymi, a w razie trudnych pytań łączą ich z ludźmi. AI obsługuje powtarzalne i proste interakcje, człowiek wkracza, gdy potrzeba wiedzy eksperckiej lub empatii.
Podobne eksperymenty toczą się zresztą na całym świecie. W Europie firmy takie jak SoftBank Robotics testują humanoidalne roboty w obsłudze klienta, a Google pracuje nad projektami, w których chatbot rozumie nie tylko treść, ale i kontekst wypowiedzi użytkownika.
Oczywiście technologia ma ograniczenia. AI wciąż ma problem z sytuacjami społecznymi wymagającymi subtelnego wyczucia relacji czy z odczytywaniem mimiki, zwłaszcza jeśli twarz rozmówcy zasłania maska lub kapelusz. Profesor Higashinaka podkreśla też, że Japonia ma znacznie mniej danych mowy niż np. anglojęzyczne laboratoria OpenAI czy Meta, co ogranicza rozwój takich systemów.
Dlatego badacze uczą J-Moshi radzenia sobie w trudnych warunkach — np. rozdzielają głosy w nagraniach podcastów lub generują sztuczne dialogi, aby zwiększyć zasób danych. Równolegle rozwijają technologie wspierające, np. systemy streszczania rozmów czy alerty o awariach dialogu, które pomagają człowiekowi przejąć rozmowę w odpowiednim momencie.
Profesor Higashinaka widzi ją w systemach, które płynnie łączą mowę, gesty i obecność fizyczną. Jego zespół testuje roboty z Unitree Robotics – czworonożne maszyny, które nie tylko rozmawiają, ale poruszają się i reagują na przestrzeń tak jak człowiek.
J-Moshi to początek drogi, na której AI przestaje być narzędziem, a staje się partnerem w rozmowie. Być może za kilka lat nie tylko w Japonii będziemy rozmawiać z robotem, który rozumie nie tylko co mówimy, ale też jak to mówimy i odpowiada tak, jakby naprawdę nas słuchał.
Szymon Ślubowski
