Czy modele są wystarczająco wrażliwe, aby rozpoznawać emocje?
Modele rozpoznawania emocji w mowie są podatne na cyberataki, co rodzi obawy bezpieczeństwa, kolejne badania starają się temu zapobiec.
Ostatnie osiągnięcia w dziedzinie rozpoznawania emocji w mowie (SER – Speech Emotion Recognition) przy użyciu technologii głębokiego uczenia przyniosły wiele obiecujących zastosowań w różnych dziedzinach, takich jak asystenci głosowi czy systemy monitorowania nastrojów. Jednak zaawansowane modele są narażone na ataki cybernetyczne, co budzi poważne obawy dotyczące ich bezpieczeństwa i niezawodności.
Zespół badaczy z Uniwersytetu w Mediolanie przeprowadził badania, aby sprawdzić, jak różne rodzaje ataków mogą wpłynąć na modele rozpoznawania emocji. Skupili się na dwóch typach ataków. Ataki typu white-box, w których sytuacja, w której atakujący ma pełny dostęp do wewnętrznych mechanizmów modelu. Może to przypominać włamanie, gdzie ktoś zna wszystkie zabezpieczenia systemu. Drugim typem ataku są ataki typu black-box. W tym przypadku atakujący ma ograniczony dostęp do modelu, tak jakby próbował włamać się do zamkniętego sejfu, nie znając jego zawartości.
Badania wykazały, że modele oparte na konwolucyjnych sieciach neuronowych z pamięcią długoterminową (CNN-LSTM) są podatne na ataki podanych typów. Przykładowo, jeśli wprowadzimy do modelu „zaburzone” dane (czyli celowo zmienione, aby zmylić system), może on podać błędne wyniki, co w praktyce mogłoby prowadzić do poważnych konsekwencji, np. błędnej interpretacji emocji.
Interesującym odkryciem było to, że nawet ataki black-box, które teoretycznie powinny być mniej skuteczne, osiągały znakomite wyniki. W niektórych przypadkach były nawet skuteczniejsze niż ataki white-box.
Badacze przyjrzeli się również temu, jak podatność modeli zmienia się w zależności od języka i płci. Przeanalizowali dane w trzech językach: niemieckim, włoskim i angielskim. Okazało się, że modele działające na danych w języku angielskim były najbardziej podatne na ataki, a te dla języka włoskiego – najmniej. Różnice między męskimi i żeńskimi próbkami były niewielkie, chociaż dane męskie były nieco bardziej odporne na ataki typu white-box.
Wyniki badań wskazują na konieczność dalszego rozwoju metod zabezpieczania takich systemów przed zagrożeniami. Publikacja wyników ma na celu nie tylko zwiększenie świadomości o lukach bezpieczeństwa, ale także zachęcenie do tworzenia bardziej odpornych systemów, co jest kluczowe w kontekście rosnącego zastosowania technologii rozpoznawania emocji.
Szymon Ślubowski