aplikacje

Aplikacje do kreowania własnych doświadczeń dźwiękowych

W zatłoczonej infrastrukturze miejskiej i wnętrzach biurowych, słuchawki, które posiadają aktywne tłumienie hałasu pozwalają wyciszyć nasz umysł i odizolować nas od świata zewnętrznego. Dotychczasowe technologie nie pozwalały użytkownikom na wybiórcze eliminowanie konkretnych dźwięków — jest już to możliwe.

Badacze z Uniwersytetu Waszyngtońskiego opracowali technologię audio, tworząc system „semantycznego słyszenia”, napędzany algorytmami Deep Learning. Ta innowacyjna metoda pozwala osobom na dostosowanie swojego otoczenia dźwiękowego w czasie rzeczywistym za pomocą połączenia ze smartfonem.

System pozwala na stłumienie monotonnego szumu ruchu ulicznego, zachowując jednocześnie ważne sygnały syren lub kojące ćwierkanie ptaków, wszystko to kontrolowane poprzez komendy głosowe lub proste aplikacje na smartfonie. System może rozróżnić do 20 rodzajów dźwięków, dając użytkownikom możliwość kreowania własnych doświadczeń dźwiękowych.

Potencjał tej technologii został zademonstrowany 1 listopada na UIST ’23 w San Francisco, gdzie badacze przedstawili swoje plany, aby wprowadzić system na rynek komercyjny. System, który pozwoli na posiadanie semantycznego słyszenia w naszych słuchawkach tkwi w jego zdolności do przetwarzania dźwięków w czasie rzeczywistym, wraz z przeżywanymi doświadczeniami, co jest niezbędne, jak zauważył Shyam Gollakota, autor i profesor Uniwersytetu Waszyngtońskiego.

Złożoność zadania polega na natychmiastowym przetwarzaniu dźwięku ze świata zewnętrznego do słuchawek, funkcja ta jest potrzebna do percepcji otoczenia w czasie rzeczywistym. Obejmuje to również zachowanie wskazówek przestrzennych i czasowych dźwięków z różnych kierunków, zapewniając użytkownikom możliwość lokalizowania i rozumienia dźwięków w swoim otoczeniu.

Testy terenowe w wielu środowiskach wykazały, że system izoluje pożądane przez użytkowników dźwięki, przy jednoczesnym wykluczaniu niepożądanego hałasu. Uczestnicy testów zgłosili znaczną poprawę jakości dźwięku, w porównaniu z oryginalnym otoczeniem akustycznym.

Mimo, że wciąż istnieją wyzwania, takie jak zbliżone, ciężko rozróżnialne typy dźwięków, badacze są optymistyczni, że dalsze treningi na danych ze świata rzeczywistego poprawią dokładność systemu.

Do współpracy włączyli się doktoranci z Uniwersytetu Waszyngtońskiego, Bandhav Veluri i Malek Itani, oraz Justin Chan z Uniwersytetu Carnegie Mellon, oraz Takuya Yoshioka z AssemblyAI.

To przełomowe odkrycie dotyczące interakcji z akustycznym otoczeniem, daje możliwość personalizacji dźwiękowego krajobrazu codziennego życia człowiekowi.

Dodatkowe badania w tej dziedzinie skupiają się na rozszerzeniu możliwości systemów rozpoznawania dźwięku, aby nie tylko wybierały dźwięki, które człowiek będzie chciał usłyszeć, ale także nauczyły się rozpoznawać i reagować na subtelne niuanse emocjonalne w głosach ludzi wokół. Rozwój inteligentnych systemów audio, które mogą wykrywać stres lub zmęczenie w głosie rozmówcy, może prowadzić do stworzenia bardziej empatycznych i reagujących na kontekst interfejsów użytkownika. Co więcej, pojawia się możliwość wykorzystania takich technologii w systemach wsparcia zdrowia psychicznego, które byłyby w stanie monitorować ton i modulację głosu, aby wykrywać wczesne oznaki depresji lub lęku. Przyszłość semantycznego słyszenia wydaje się być nie tylko fascynująca, ale i pełna nadziei na poprawę jakości naszego życia dźwiękowego.

Szymon Ślubowski

SUBSKRYBUJ „GAZETĘ NA NIEDZIELĘ” Oferta ograniczona: subskrypcja bezpłatna do 31.08.2024.

Strona wykorzystuje pliki cookie w celach użytkowych oraz do monitorowania ruchu. Przeczytaj regulamin serwisu.

Zgadzam się