Przekształcanie obrazów w opisy dźwiękowe dla niewidomych

10 marca 2024, Szymon ŚLUBOWSKI
BIT Biznes i Technologie

Przekształcanie obrazów w opisy dźwiękowe jest ważnym aspektem dla wielu ludzi na całym świecie, nad którym grupa inżynierów z Indii się pochyliła.

Na całym świecie żyje około 280 milionów osób z różnym stopniem upośledzenia wzroku, co stawia przed społeczeństwem wyzwanie zapewnienia im większej dostępności do otaczającego świata. Dzięki badaniom opublikowanym w „International Journal of Engineering Systems Modelling and Simulation”, grupa inżynierów z Indii przedstawiła przełomową technologię, która może znacznie ułatwić życie osobom niedowidzącym.

W kontekście coraz bardziej cyfrowego świata, gdzie wizualne aspekty dominują w naszej komunikacji i percepcji otoczenia, innowacje takie jak opisany system przekształcania obrazów w opisy dźwiękowe otwierają dyskusję na temat nowych form dostępności. Co interesujące, ta technologia nie tylko umożliwia osobom niedowidzącym interakcję ze światem wizualnym, ale również podkreśla znaczenie różnorodnych form percepcji w naszym zrozumieniu rzeczywistości. Inspirując do refleksji nad sposobem, w jaki postrzegamy świat wokół nas, projekt ten może zachęcać do szerszego myślenia o uniwersalnym projektowaniu i dostępności w różnych obszarach życia. W ten sposób, oprócz bycia narzędziem wspomagającym, technologia ta staje się przyczynkiem do kulturowej zmiany, promując bardziej inkluzję i empatię w społeczeństwie.

Zespół badawczy, na który składają się S. Pavithra, T. Helan Vidhya, D. Gururaj, P. Shanmuga Priya z Rajalakshmi Engineering College oraz V. Prabhakaran z Aarupadai Veedu Institute of Technology, opracował zaawansowany system oparty na cyfrowym przetwarzaniu obrazów i technologii głosowej. Ich innowacja polega na przekształcaniu wizualnych danych otoczenia w opisy dźwiękowe, które są łatwe do zrozumienia dla osób niedowidzących.

Podstawą technologii jest mechanizm, który w czasie rzeczywistym przechwytuje obrazy i za pomocą algorytmów uczenia maszynowego identyfikuje obiekty na nich znajdujące się. Następnie, dzięki wykorzystaniu platform takich jak TensorFlow, system przekształca te informacje w szczegółowe opisy dźwiękowe, umożliwiając użytkownikom zrozumienie i interakcję z otoczeniem.

Ale to nie wszystko – technologia idzie o krok dalej, stając się osobistym asystentem, który informuje o potencjalnych zagrożeniach i istotnych szczegółach otoczenia, zwiększając tym samym bezpieczeństwo i samodzielność użytkowników. Dodatkowo, badacze zintegrowali w systemie funkcję wzywania pomocy, zapewniającą dodatkową warstwę bezpieczeństwa w przypadku nagłych sytuacji.

Rygorystyczne testy potwierdziły wysoką skuteczność tego rozwiązania, z dokładnością identyfikacji obiektów na poziomie 90% dla elementów pierwotnych i 80% dla wtórnych. Co więcej, system wykazał się zdolnością do adaptacji w różnorodnych środowiskach, zarówno wewnątrz, jak i na zewnątrz pomieszczeń.

To pionierskie osiągnięcie może znacząco wpłynąć na jakość życia osób niedowidzących, oferując im możliwość bardziej samodzielnej interakcji z otoczeniem. Dzięki niemu, osoby z upośledzeniem wzroku mogą zyskać nowy poziom niezależności i lepiej integrować się ze społeczeństwem. Naukowcy z Indii mają nadzieję, że ich technologia zostanie szeroko przyjęta i stanie się cennym uzupełnieniem obecnych metod wspomagania osób niedowidzących, otwierając przed nimi nowe możliwości poznawania świata.

Szymon Ślubowski

SUBSKRYBUJ „GAZETĘ NA NIEDZIELĘ” Oferta ograniczona: subskrypcja bezpłatna do 31.08.2024.