VASA-1 technologią animacji obrazów za pomocą AI
Microsoft Research Asia opracował aplikację wykorzystującą sztuczną inteligencje o nazwie VASA-1, która animuje obrazów internetowych.
VASA-1 może wykonać prosty nieruchomy obraz osoby – niezależnie od tego, czy jest to fotografia, rysunek, czy nawet historyczny obraz – i sparować go ze ścieżką dźwiękową, aby utworzyć zsynchronizowane wideo osoby mówiącej lub śpiewającej. Aplikacja wykorzystuje algorytmy sztucznej inteligencji do analizy i w ten sposób odtworzenia ludzkiej mimiki i ruchów głowy, osiągając wysoki poziom realizmu i żywotności w wynikowych animacjach.
Technologia wspierające system obejmuje szkolenie AI na podstawie tysięcy obrazów, które wyświetlają szeroki zakres mimiki twarzy zwracając uwagę na emocje. Trening na dużej próbie danych umożliwia sztucznej inteligencji dokładne zrozumienie i naśladowanie subtelnych niuansów ludzkiej mimiki. Użytkownicy mogą wprowadzić dowolną ścieżkę dźwiękową, a system wygeneruje odpowiednie wideo, w którym portret wydaje się naturalnie i ekspresyjnie wyrażać dźwięk.
Potencjalne zastosowania aplikacji są ogromne. W przemyśle rozrywkowym technologia ta może zrewolucjonizować sposób animowania postaci, sprawiając, że tworzenie realistycznych animacji będzie szybsze i bardziej opłacalne. Może również prowadzić do tworzenia dynamicznych awatarów do wykorzystania w grach wideo lub symulacjach wirtualnej rzeczywistości, zapewniając użytkownikom bardziej wciągające wrażenia. Aktorzy, którzy chcą udzelić swojego wizerunku w reklamie mogliby po prostu sprzedać prawa do wizerunku na rzecz danej reklamy, a sztab osób zajmujących się marketingiem w odpowiedni sposób zaprezentowaliby swój produkt przy pomocy wizerunku celebryty.
W sektorze edukacyjnym i zawodowym może być wykorzystywana do generowania filmów instruktażowych lub dynamicznych prezentacji z udziałem wirtualnych instruktorów, aby w sposób kompleksowy móc objaśniać różnego rodzaju tematy. Ponadto muzea mogłyby ożywić portrety postaci historycznych, oferując odwiedzającym wyjątkowe i interaktywne doświadczenie edukacyjne.
Pomimo swoich imponujących możliwości, technologia budzi również poważne obawy etyczne, szczególnie w odniesieniu do możliwości niewłaściwego wykorzystania. Zdolność do tworzenia realistycznych filmów z nieruchomych obrazów może zostać wykorzystana do tworzenia wprowadzających w błąd lub szkodliwych treści, takich jak deepfake’i. Uznając to ryzyko, Microsoft zdecydował się nie udostępniać technologii do ogólnego użytku, ograniczając dostęp, aby zapobiec nadużyciom.
Zespół programistów podkreśla znaczenie odpowiedzialnego rozwoju i wykorzystania sztucznej inteligencji. Badają zabezpieczenia, które można wdrożyć, aby zapewnić etyczne i korzystne wykorzystanie technologii, odzwierciedlając szerszy trend w branży w kierunku bardziej rygorystycznego zarządzania sztuczną inteligencją.
VASA-1 reprezentuje tylko wierzchołek góry lodowej pod względem tego, co jest możliwe dzięki sztucznej inteligencji w produkcji medialnej. Wraz z dalszym rozwojem technologii AI możemy spodziewać się jeszcze bardziej wyrafinowanych narzędzi, które jeszcze bardziej zatrą granice między rzeczywistością cyfrową a rzeczywistością.
Jednakże, gdy poruszamy się po tej obiecującej przyszłości, ważne jest, aby zachować czujność co do implikacji etycznych i dążyć do regulacji, które chronią prywatność i zapobiegają nadużyciom. Wspierając zrównoważone podejście do rozwoju sztucznej inteligencji, możemy wykorzystać jej pełny potencjał, jednocześnie minimalizując ryzyko związane z tymi potężnymi technologiami.
Technologia firmy Microsoft jest przykładem, jak sztuczna inteligencja może zmienić wpłynąć na szeroko rozumiane media, oferując nowe możliwości i rzucając nam wyzwanie do ponownego przemyślenia interakcji między technologią a sztuką.
Szymon Ślubowski