
Szybkie śledzenie twarzy przyśpieszy rozwój AR
AR kiedyś była jedynie fanaberią, obecnie coraz więcej osób wykorzystuje tą technologię, a szybkie śledzenie twarzy jeszcze to przyśpieszy.
Jedną z najbardziej zaawansowanych technologii w tym obszarze jest dynamiczna projekcja na twarz (DFPM), która umożliwia nakładanie wizualnych efektów na poruszające się twarze użytkowników w czasie rzeczywistym. Dzięki temu możliwe jest tworzenie niezwykle immersyjnych doświadczeń, które jeszcze do niedawna pozostawały w sferze science fiction.
Jednak dynamiczna projekcja twarzy napotykała na liczne wyzwania techniczne, ograniczające jej szerokie zastosowanie. Największym problemem był czas reakcji systemów śledzenia – aby projekcja była płynna, technologia musi identyfikować kluczowe punkty twarzy, takie jak oczy, nos czy usta, w czasie krótszym niż jedna milisekunda. Nawet minimalne opóźnienia powodowały błędy w wyrównaniu obrazu, które zakłócały wrażenie realizmu i niszczyły efekt immersji.
Na czele zespołu badawczego z Instytutu Naukowego w Tokio stanął profesor Yoshihiro Watanabe, który wraz ze swoim zespołem zaprojektował system wysokiej szybkości DFPM. Wyniki ich badań, opublikowane w czasopiśmie „IEEE Transactions on Visualization and Computer Graphics” w styczniu 2025 roku, prezentują innowacyjne rozwiązania, które mogą całkowicie zmienić oblicze rozszerzonej rzeczywistości.
Kluczową innowacją japońskich badaczy była metoda „szybkiego śledzenia twarzy”, która łączy dwie różne techniki wykrywania cech twarzy w czasie rzeczywistym. Wykorzystano algorytm Ensemble of Regression Trees (ERT) do błyskawicznego wykrywania punktów charakterystycznych. Dodatkowo naukowcy opracowali sposób na przyspieszenie analizy obrazu poprzez kadrowanie obszaru detekcji na podstawie wcześniejszych klatek, co pozwalało ograniczyć powierzchnię przeszukiwania i znacząco zwiększyć wydajność systemu.
Aby zapewnić równowagę między szybkością a precyzją, system połączył szybkie, ale mniej dokładne algorytmy z wolniejszymi, lecz bardziej precyzyjnymi metodami pomocniczymi. Takie podejście pozwoliło osiągnąć rekordową wydajność – przetwarzanie jednej klatki zajmuje zaledwie 0,107 milisekundy, a jednocześnie system zachowuje wysoką dokładność odwzorowania.
Kolejnym krokiem było rozwiązanie problemu niedostatecznej liczby zestawów danych treningowych dotyczących ruchów twarzy. Badacze opracowali nowatorską metodę generowania adnotacji wideo o wysokiej liczbie klatek na sekundę, bazując na istniejących statycznych zestawach obrazów twarzy. Pozwoliło to na skuteczne szkolenie algorytmów, które mogły precyzyjnie odzwierciedlać rzeczywiste ruchy mimiczne.
Dodatkowo naukowcy rozwiązali problem błędów wyrównania obrazu, stosując innowacyjną konfigurację projektora i kamery. System optyczny z mechanizmem przesunięcia soczewki pozwolił na niemal idealne dopasowanie współrzędnych obrazu do ruchów użytkownika. Ostatecznie udało się osiągnąć minimalny błąd wyrównania na poziomie 1,274 piksela dla użytkowników znajdujących się w odległości od jednego do dwóch metrów od urządzenia.
Wprowadzone rozwiązania oznaczają ogromny krok naprzód w technologii DFPM, umożliwiając jeszcze bardziej realistyczne efekty wizualne. Może to zrewolucjonizować pokazy mody, występy sceniczne oraz wydarzenia artystyczne, tworząc niespotykane dotąd doświadczenia wizualne. Przełomowe osiągnięcia zespołu z Tokio pokazują, że przyszłość rozszerzonej rzeczywistości rysuje się w coraz jaśniejszych barwach, a innowacje w śledzeniu twarzy otwierają drzwi do jeszcze bardziej zaawansowanych technologii AR.
Szymon Ślubowski