Mów do mnie komputer: uruchamia się sterowanie głosowe

Jeśli niespodziewane paczki zaczną pojawiać się u Twoich drzwi, możesz chcieć zamienić słowo z jednym ze swoich inteligentnych urządzeń.

Wcześniej w tym miesiącu sześciolatka z Dallas zapytała swoją rodzinę Amazon Echo inteligentny głośnik do domku dla lalek. A Alexa, sztuczna asystentka Amazona podobna do Siri, natychmiast zamówiłem jeden do ich domu.

Program informacyjny w San Diego TV podchwycił tę historię i nieumyślnie powtórzył ją, gdy jeden z prezenterów wiadomości skomentował: „Kocham tę małą dziewczynkę, mówiąc „Alexa, zamów mi domek dla lalek”. Słysząc to, kilka innych urządzeń Amazon w domach w całym San Diego próbowałem kupić więcej domków dla lalek.

CW6 San Diego donosi o przypadkowym zakupie domku dla lalek przez Alexę.

{youtube}oI2KLIULjXc{/youtube}

Historia może brzmieć żałośnie znajomo dla każdego, kto próbował porozmawiać z Siri firmy Apple lub Cortaną firmy Microsoft. Nasze urządzenia stały się całkiem dobre w słuchaniu nas, ale to nie zawsze oznacza, że ​​rozumieją.

Badacze z Microsoftu niedawno wskazali to jako potencjalny problem z dzisiejszymi mówiącymi interfejsami: są oni reklamowani jako „inteligentni” asystenci, ze sprytnymi żartami i światową wiedzą, ale często frustrują nas brakiem zdrowego rozsądku.


wewnętrzna grafika subskrypcji


W małe badanie, naukowcy odkryli, że osoby, które z czasem nadal rozmawiały ze swoimi cyfrowymi asystentami, to osoby, które zaczynały z najmniejszymi oczekiwaniami.

Co właściwie robi interfejs głosowy?

Kiedy mówisz do interfejsu głosowego, musi on:

  • „usłysz” dźwięk swojego głosu i odróżnij go od szumu tła
  • dowiedzieć się, gdzie każde słowo zaczyna się i kończy, ignorując swoje „umms” i „ahhs”
  • dopasuj dźwięk każdego słowa do słowa w słowniku, wybierając właściwy z kontekstu, jeśli jest homofony
  • poprawnie zinterpretuj znaczenie całego zdania
  • wygenerować sensowną i użyteczną odpowiedź, która pasuje do Twojego żądania.

Każdy z nich jest złożonym wyzwaniem technicznym, a różne firmy technologiczne poczyniły postępy w różnych obszarach.

Google Now sprawdza się w udzielaniu trafnych odpowiedzi na szeroki zakres próśb, ponieważ korzysta z zasobów danych Google dotyczących sieci i Twojej osobistej aktywności, jeśli korzystasz z usług Google.

Amazon Echo jest szczególnie dobry w słyszeniu twoich próśb z hałaśliwego pomieszczenia, dzięki układowi mikrofonów dalekiego pola z redukcją szumów. Oczywiście jest również dobry w robieniu zakupów przez Amazon.

W ciągu ostatnich kilku lat interfejsy głosowe znacznie lepiej rozumieją codzienną lub „naturalną” mowę, a nie tylko sztywne i starannie sformułowane polecenia. Nadal radzą sobie lepiej z prostymi zapytaniami, takimi jak „kto gra w Australian Open?”, i mają tendencję do zmagania się z bardziej skomplikowanymi zapytaniami, takimi jak „kto gra w Australian Open po raz pierwszy w tym roku?” i kontynuacją pytania typu „czy podczas finałów będzie padać?”.

Sytuacja jest jeszcze bardziej zróżnicowana w przypadku języków innych niż angielski: podczas gdy Siri obsługuje ponad 40 języków i dialektów, jak dotąd Alexa jest dostępna tylko w języku angielskim i niemieckim. Ale wszystkie te cechy stale się poprawiają.

Gdzie zacinają się interfejsy głosowe

Tak więc interfejsy głosowe wkrótce przejmą całą naszą technologię, jak przewidziano w filmie? Jej? Gartner, firma zajmująca się badaniami technologicznymi, ma prognozę że do przyszłego roku 30% naszych interakcji z technologią będzie rozmowami z interfejsami obsługującymi głos.

Ale interfejsy głosowe mają ograniczenia i nie wszystkie z nich można rozwiązać za pomocą lepszej technologii.

Głos jest centralnym środkiem kontaktu z technologią w filmie Spike'a Jonze Her.

{youtube}ne6p6MfLBxc{/youtube}

Zanieczyszczenie hałasem jest jedną z głównych przeszkód. Czy Twoje urządzenie potrafi odróżnić to, co mówisz, od otaczającego Cię hałasu? Technologia może w tym pomóc, w tym redukcja szumów, spersonalizowane rozpoznawanie głosu i czytanie z ruchu warg.

Ale co z hałasem w tle, który tworzysz dla innych, rozmawiając ze swoim inteligentnym urządzeniem? Wyobraź sobie osobę siedzącą obok ciebie w biurze – lub w samolocie – rozmawiającą z Siri, gdy próbujesz czytać, a zobaczysz, dlaczego interfejsy głosowe nie zawsze są akceptowalne społecznie.

Kolejny zestaw problemów wynika z mentalnych wymagań interfejsów głosowych. Nauka obsługi systemu głosowego może być trudna, zwłaszcza jeśli nie ma ekranu, jak w przypadku Amazon Echo.

Jeśli kiedykolwiek dzwoniłeś do banku lub firmy telefonicznej, znasz żałosną kombinację koncentracji i nudy, która towarzyszy słuchaniu syntezowanego głosu, wypisz wszystkie opcje, czekając na tę, której potrzebujesz i starając się ich nie mieszać w górę. Tradycyjne interfejsy graficzne pozwalają uniknąć tego problemu, pokazując dostępne opcje i pozwalając szybko wybrać swój wybór.

Po nauczeniu się poleceń głosowych używanie ich może rozpraszać. Naukowcy odkryli, że polecenia głosowe wykoleić twój tok myślenia więcej niż mysz i klawiatura.

Jest to szczególnie niebezpieczne w przypadku interfejsów głosowych w samochodach: dwa badania przeprowadzone na Uniwersytecie w Utah wykazały, że kierowcy: rozkojarzony do 27 sekund po użyciu poleceń głosowych.

University of Utah / AAA Foundation for Traffic Safety Research na temat rozpraszania uwagi kierowcy.

{vimeo}108281698{/vimeo}

Odnajdujesz swój głos?

Tak więc interfejsy głosowe raczej nie przejmą roli, ale znajdą w naszym życiu pożyteczną niszę. Są już powszechne w samochodach, gdzie miejmy nadzieję, że staną się mniej rozpraszające wraz z poprawą technologii.

W kuchni możesz poprosić Alexę o omówienie przepisu lub zaktualizowanie listy zakupów, podczas gdy twoje ręce są zajęte gotowaniem. W rzeczywistości wirtualnej i rozszerzonej interfejsy głosowe umożliwiają sterowanie systemem, gdy w ogóle nie widzisz swoich rąk.

W nauce języków można je wykorzystać do ćwiczenia wymowy. Co najważniejsze, interfejsy głosowe pomagają użytkownikom z niepełnosprawnością ruchową, RSI lub dysleksją przezwyciężyć ich niepełnosprawność.

Interfejsy głosowe to długo oczekiwana technologia i istnieją dobre powody, by sądzić, że wreszcie nadszedł ich czas. Pamiętaj tylko, że mogą nie być jeszcze tak sprytne, jak się wydaje. Możesz też umieścić kod PIN przy zakupach głosowych, jeśli w pobliżu są dzieci.

Konwersacje

O autorze

Fraser Allison, doktorant w dziedzinie interakcji człowiek-komputer, University of Melbourne

Ten artykuł został pierwotnie opublikowany w Konwersacje. Przeczytać oryginalny artykuł.

Na podobny temat

{amazonWS:searchindex=KindleStore;keywords=AmazonEcho" target="_blank" rel="nofollow noopener">InnerSelf Market i Amazon