Bez kategorii

„Słyszące okulary”: Jak AI czytające z ruchu warg zrewolucjonizuje aparaty słuchowe

Utrata słuchu to niewidzialna bariera, która izoluje od świata. Zwykła rozmowa w kawiarni, komunikat na dworcu czy spotkanie w pracy stają się wyzwaniem, gdy zlewający się szum otoczenia zagłusza głos rozmówcy. Standardowe aparaty słuchowe, mimo postępu technologicznego, często zawodzą w hałaśliwych miejscach. Ich mały rozmiar i ograniczona moc obliczeniowa nie pozwalają na skuteczne oddzielenie pożądanego dźwięku od tła. To problem, który dotyka ponad 1,2 miliona dorosłych w samej Wielkiej Brytanii, skazując ich na frustrację i społeczną izolację.

Ale co, gdybyśmy mogli dać aparatom słuchowym „supermoce”? Co, gdyby urządzenie nie tylko słyszało, ale także widziało mowę? Przełomowy, interdyscyplinarny projekt badawczy, prowadzony przez zespół brytyjskich uniwersytetów, wykorzystuje sztuczną inteligencję, technologię 5G i moc obliczeniową chmury, aby stworzyć „słyszące okulary” – system, który ma potencjał, by na zawsze zmienić sposób, w jaki osoby z ubytkiem słuchu doświadczają dźwięku.

Słyszące okulary: jak technologia uczy się „czytać z ruchu warg”?

Koncepcja „słyszących okularów” opiera się na genialnym w swojej prostocie połączeniu dwóch strumieni informacji: dźwięku i obrazu. Zamiast polegać wyłącznie na sygnale audio, który w hałasie jest zniekształcony i nieczytelny, system wykorzystuje nierozerwalny związek między ruchem warg a dźwiękiem mowy.

Element systemuZadanieJak to działa?
Okulary z mikrokamerąRejestracja obrazuNiewielka kamera, wbudowana w oprawki okularów, śledzi ruch warg osoby, na którą patrzy użytkownik.
Aparat słuchowy / SłuchawkiRejestracja dźwiękuMikrofony zbierają cały sygnał dźwiękowy z otoczenia – zarówno głos rozmówcy, jak i tło.
Smartfon i sieć 5GTransmisja danychAplikacja na smartfonie wysyła oba strumienie danych (wideo i audio) do chmury obliczeniowej. Ultraszybka sieć 5G zapewnia minimalne opóźnienia.
Chmura obliczeniowa z AIPrzetwarzanie danychPotężne algorytmy głębokiego uczenia analizują oba strumienie jednocześnie. Sztuczna inteligencja wykorzystuje wizualne wskazówki (ruch warg), aby „wyłowić” i odizolować głos rozmówcy z otaczającego hałasu.
Aparat słuchowy / SłuchawkiOdtwarzanie oczyszczonego dźwiękuCzysty, wzmocniony głos rozmówcy jest niemal natychmiastowo odsyłany z chmury i odtwarzany w uchu użytkownika.

Jak wyjaśnia profesor Mathini Sellathurai, współprowadząca projekt: „Nie próbujemy wymyślać aparatów słuchowych na nowo. Próbujemy dać im supermoce. Po prostu kierujesz kamerę lub patrzysz na osobę, którą chcesz usłyszeć. Nawet jeśli dwie osoby mówią jednocześnie, AI używa wskazówek wizualnych, aby wyodrębnić głos osoby, na którą patrzysz”.

Dlaczego chmura i 5G są kluczowe?

Istniejące technologie redukcji szumów mają swoje ograniczenia. Dobrze radzą sobie ze stałym, przewidywalnym hałasem, ale zawodzą, gdy w tle pojawiają się złożone dźwięki lub, co najgorsze, głosy innych ludzi. Wyodrębnienie jednego głosu z mieszaniny wielu to zadanie niezwykle wymagające obliczeniowo.

Tradycyjne aparaty słuchowe są zbyt małe, by pomieścić procesory zdolne do wykonania tak skomplikowanych operacji w czasie rzeczywistym. Rozwiązaniem jest przeniesienie ciężaru obliczeń do chmury. Dzięki temu naukowcy mogą stosować najnowocześniejsze, potężne algorytmy głębokiego uczenia bez obciążania małego, noszonego na ciele urządzenia.

Oczywiście, pojawia się problem opóźnienia. Dane muszą pokonać drogę z okularów do chmury (nawet do serwerów w Sztokholmie) i z powrotem. I tu do gry wkracza technologia 5G. Jej znikome opóźnienia sprawiają, że cały proces, mimo ogromnej odległości, jaką pokonują dane, jest dla użytkownika odczuwalny jako natychmiastowy.

Poza aparatem słuchowym: uniwersalny potencjał technologii

Choć głównym celem projektu jest wsparcie osób z ubytkiem słuchu, potencjał tej technologii jest znacznie szerszy. Może ona przynieść korzyści każdemu, kto musi precyzyjnie słyszeć w ekstremalnie hałaśliwym środowisku.

Potencjalne zastosowania:

  • Przemysł: Pracownicy na platformach wiertniczych czy w głośnych halach produkcyjnych.
  • Medycyna: Lekarze i pielęgniarki na zatłoczonych oddziałach ratunkowych.
  • Służby ratunkowe: Strażacy i policjanci podczas akcji w chaotycznym otoczeniu.
  • Zastosowania konsumenckie: Każdy, kto chce prowadzić wyraźną rozmowę w głośnym barze czy na koncercie.

Naukowcy aktywnie pracują nad funkcjonalnym prototypem okularów i rozmawiają z producentami aparatów słuchowych o przyszłej współpracy. Ich celem jest nie tylko stworzenie działającej technologii, ale także obniżenie jej kosztów, aby stała się dostępna dla jak najszerszej grupy odbiorców, w tym dzieci i osób starszych. W przyszłości model oparty na chmurze mógłby stać się publicznie dostępny, pozwalając każdemu z kompatybilnym urządzeniem na skorzystanie z jego możliwości.


FAQ – Najczęściej zadawane pytania

  1. Czym jest „audio-wizualne wzmacnianie mowy” (audio-visual speech enhancement)?
    Jest to dziedzina przetwarzania sygnałów, która wykorzystuje zarówno informacje dźwiękowe (audio), jak i wizualne (ruch warg, mimika) do poprawy jakości i zrozumiałości mowy. Opiera się na fakcie, że te dwa kanały informacji są ze sobą silnie skorelowane i mogą się wzajemnie uzupełniać.
  2. Jak AI uczy się powiązania między ruchem warg a dźwiękiem?
    Algorytmy są trenowane na ogromnych zbiorach danych zawierających filmy, na których ludzie mówią. Sztuczna sieć neuronowa uczy się rozpoznawać, jakie wzorce ruchu warg odpowiadają konkretnym dźwiękom (fonomemom). Dzięki temu, widząc określony ruch warg, jest w stanie „przewidzieć”, jaki dźwięk powinien mu towarzyszyć, i wzmocnić właśnie ten dźwięk w sygnale audio.
  3. Czy system będzie działał, jeśli rozmówca ma zasłonięte usta lub nosi brodę?
    Są to realne wyzwania dla tej technologii. Skuteczność systemu jest najwyższa, gdy ruch warg jest dobrze widoczny. Jednak zaawansowane modele AI mogą uczyć się kompensować częściową okluzję, wykorzystując inne wskazówki wizualne, takie jak ruchy policzków, żuchwy czy ogólna mimika twarzy.
  4. Czy przesyłanie nagrań moich rozmów do chmury jest bezpieczne?
    Prywatność i bezpieczeństwo danych to kluczowe kwestie, które muszą zostać rozwiązane przed komercjalizacją tej technologii. Wdrożenie na szeroką skalę będzie wymagało zastosowania silnego szyfrowania danych i rygorystycznych polityk prywatności, aby zapewnić, że treść rozmów nie będzie przechowywana ani wykorzystywana w nieuprawniony sposób.
  5. Czy ta technologia może działać „na urządzeniu” (on-device) bez chmury?
    Tak, naukowcy pracują również nad wersjami „edge AI”, czyli algorytmami, które mogłyby działać lokalnie na smartfonie lub w samym urządzeniu. Obecnie moc obliczeniowa urządzeń mobilnych jest zbyt mała dla najbardziej zaawansowanych algorytmów, ale w przyszłości, wraz z rozwojem specjalistycznych procesorów AI (NPU), bardziej uproszczone wersje tej technologii mogą stać się w pełni niezależne od chmury.

Leave a Comment

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *