Aplikacje do kreowania własnych doświadczeń dźwiękowych

13 listopada 2023, Szymon Ślubowski
Nauka

W zatłoczonej infrastrukturze miejskiej i wnętrzach biurowych, słuchawki, które posiadają aktywne tłumienie hałasu pozwalają wyciszyć nasz umysł i odizolować nas od świata zewnętrznego. Dotychczasowe technologie nie pozwalały użytkownikom na wybiórcze eliminowanie konkretnych dźwięków — jest już to możliwe.

Badacze z Uniwersytetu Waszyngtońskiego opracowali technologię audio, tworząc system „semantycznego słyszenia”, napędzany algorytmami Deep Learning. Ta innowacyjna metoda pozwala osobom na dostosowanie swojego otoczenia dźwiękowego w czasie rzeczywistym za pomocą połączenia ze smartfonem.

System pozwala na stłumienie monotonnego szumu ruchu ulicznego, zachowując jednocześnie ważne sygnały syren lub kojące ćwierkanie ptaków, wszystko to kontrolowane poprzez komendy głosowe lub proste aplikacje na smartfonie. System może rozróżnić do 20 rodzajów dźwięków, dając użytkownikom możliwość kreowania własnych doświadczeń dźwiękowych.

Potencjał tej technologii został zademonstrowany 1 listopada na UIST ’23 w San Francisco, gdzie badacze przedstawili swoje plany, aby wprowadzić system na rynek komercyjny. System, który pozwoli na posiadanie semantycznego słyszenia w naszych słuchawkach tkwi w jego zdolności do przetwarzania dźwięków w czasie rzeczywistym, wraz z przeżywanymi doświadczeniami, co jest niezbędne, jak zauważył Shyam Gollakota, autor i profesor Uniwersytetu Waszyngtońskiego.

Złożoność zadania polega na natychmiastowym przetwarzaniu dźwięku ze świata zewnętrznego do słuchawek, funkcja ta jest potrzebna do percepcji otoczenia w czasie rzeczywistym. Obejmuje to również zachowanie wskazówek przestrzennych i czasowych dźwięków z różnych kierunków, zapewniając użytkownikom możliwość lokalizowania i rozumienia dźwięków w swoim otoczeniu.

Testy terenowe w wielu środowiskach wykazały, że system izoluje pożądane przez użytkowników dźwięki, przy jednoczesnym wykluczaniu niepożądanego hałasu. Uczestnicy testów zgłosili znaczną poprawę jakości dźwięku, w porównaniu z oryginalnym otoczeniem akustycznym.

Mimo, że wciąż istnieją wyzwania, takie jak zbliżone, ciężko rozróżnialne typy dźwięków, badacze są optymistyczni, że dalsze treningi na danych ze świata rzeczywistego poprawią dokładność systemu.

Do współpracy włączyli się doktoranci z Uniwersytetu Waszyngtońskiego, Bandhav Veluri i Malek Itani, oraz Justin Chan z Uniwersytetu Carnegie Mellon, oraz Takuya Yoshioka z AssemblyAI.

To przełomowe odkrycie dotyczące interakcji z akustycznym otoczeniem, daje możliwość personalizacji dźwiękowego krajobrazu codziennego życia człowiekowi.

Dodatkowe badania w tej dziedzinie skupiają się na rozszerzeniu możliwości systemów rozpoznawania dźwięku, aby nie tylko wybierały dźwięki, które człowiek będzie chciał usłyszeć, ale także nauczyły się rozpoznawać i reagować na subtelne niuanse emocjonalne w głosach ludzi wokół. Rozwój inteligentnych systemów audio, które mogą wykrywać stres lub zmęczenie w głosie rozmówcy, może prowadzić do stworzenia bardziej empatycznych i reagujących na kontekst interfejsów użytkownika. Co więcej, pojawia się możliwość wykorzystania takich technologii w systemach wsparcia zdrowia psychicznego, które byłyby w stanie monitorować ton i modulację głosu, aby wykrywać wczesne oznaki depresji lub lęku. Przyszłość semantycznego słyszenia wydaje się być nie tylko fascynująca, ale i pełna nadziei na poprawę jakości naszego życia dźwiękowego.

Szymon Ślubowski

SUBSKRYBUJ „GAZETĘ NA NIEDZIELĘ” Oferta ograniczona: subskrypcja bezpłatna do 31.08.2024.

Aplikacje do kreowania własnych doświadczeń dźwiękowych

Polecamy szczególnie:

Najnowsze obrazy z sondy Chandra i Teleskopu Webba

Oryginalny szkielet dinozaura sprzedany za 44 mln USD

Fale grawitacyjne – co o nich wiemy?

Wyjątkowe znalezisko z Jaskini Czaszek w Izraelu. Najstarsza tkanina farbowana barwnikiem z owadów

Sonda Juice zbliży się do Ziemi i wykona niezwykły manewr

Teleskop Jamesa Webba pomaga badać Wszechświat już od dwóch lat