Skąd komputer wie, gdzie patrzysz?

Wyobraź sobie, że prowadzisz samochód, korzystając z projekcji heads-up na przedniej szybie, aby poruszać się po nieznanym mieście. To jest rzeczywistość rozszerzona (AR); Informacje te są wykorzystywane nie tylko do prowadzenia Cię po trasie, ale także do ostrzegania o istotnych informacjach w Twoim otoczeniu, takich jak rowerzyści lub piesi. . Prawidłowe rozmieszczenie wirtualnych treści jest nie tylko kluczowe, ale być może kwestią życia i śmierci.

Informacje nie mogą przesłaniać innych materiałów i powinny być wyświetlane na tyle długo, abyś mógł je zrozumieć, ale nie za długo. Systemy komputerowe muszą dokonywać tych ustaleń w czasie rzeczywistym, nie powodując, że jakiekolwiek informacje będą rozpraszające lub natrętne. Z pewnością nie chcemy, aby ostrzeżenie o rowerzyście, który ma przejechać przed samochodem, przesłoniło samą rowerzystę!

Jako badacz w AR spędzam dużo czasu próbując znaleźć właściwe informacje na ekranie użytkownika, we właściwym miejscu, we właściwym momencie. Nauczyłem się, że wyświetlanie zbyt dużej ilości informacji może zdezorientować użytkownika, ale niewystarczająca ilość może spowodować, że aplikacja stanie się bezużyteczna. Musimy znaleźć idealne miejsce pomiędzy.

Okazuje się, że kluczowym elementem jest wiedza, gdzie użytkownicy szukają. Tylko wtedy możemy dostarczyć potrzebne informacje do miejsca, w którym mogą je przetworzyć. Nasze badania obejmują pomiary, gdzie użytkownik patrzy na prawdziwą scenę, jako sposób na podjęcie decyzji, gdzie umieścić zawartość wirtualną. Dzięki AR jest w stanie zinfiltrować wiele obszarów naszego życia – od jazdy do praca do rekreacja – musimy rozwiązać ten problem, zanim będziemy mogli polegać na AR jako wsparciu dla poważnych lub krytycznych działań.

Ustalenie, gdzie umieścić informacje

Sensowne jest, aby informacje pojawiały się tam, gdzie szuka użytkownik. Podczas nawigacji użytkownik mógł spojrzeć na budynek, ulicę lub inny rzeczywisty obiekt, aby odsłonić powiązane wirtualne informacje; system wiedziałby, że należy ukryć wszystkie inne wyświetlacze, aby uniknąć zaśmiecania widocznej sceny.


wewnętrzna grafika subskrypcji


Ale skąd wiemy, na co ktoś patrzy? Okazuje się, że niuanse ludzkiego wzroku pozwalają nam badać oczy człowieka i obliczyć, gdzie patrzą. Łącząc te dane z kamerami pokazującymi pole widzenia danej osoby, możemy określić, co dana osoba widzi i na co patrzy.

Systemy śledzenia wzroku pojawiły się po raz pierwszy w XX wieku. Pierwotnie były używane głównie do badania wzorców czytania; niektóre mogą być bardzo nachalne dla czytelnika. Niedawno pojawiło się śledzenie ruchu gałek ocznych w czasie rzeczywistym, które stało się bardziej przystępne cenowo, prostsze w obsłudze i mniejsze. .

Eye trackery można przymocować do ekran lub zintegrowany z okularami do noszenia lub wyświetlaczami montowanymi na głowie. Oczy są śledzone za pomocą kombinacji kamery, projekcje i algorytmy wizji komputerowej aby obliczyć pozycję oka i punkt patrzenia na monitorze.

Podczas badania danych śledzenia wzroku zazwyczaj bierzemy pod uwagę dwie miary. Pierwszy nazywa się a utrwalenie, i jest używany do opisywania, kiedy zatrzymujemy wzrok, często w interesującym miejscu w scenie, ponieważ przykuło to naszą uwagę. Drugi to sakkada, jeden z szybkich ruchów oczu używany do pozycjonowania spojrzenia. Po krótkich okresach fiksacji następują szybkie ruchy, zwane sakadami. Zasadniczo nasze oczy szybko biegną z miejsca na miejsce, zbierając informacje o częściach sceny. Nasze mózgi następnie łączą informacje z tych fiksacji, aby stworzyć wizualny obraz w naszych umysłach.

{youtube}tdFIvRMvFQI{/youtube}

Połączenie śledzenia gałek ocznych z AR

Często treści AR są zakotwiczone w rzeczywistym obiekcie lub lokalizacji. Na przykład na tej ulicy powinna być wyświetlana wirtualna etykieta zawierająca nazwę ulicy. W idealnej sytuacji chcielibyśmy, aby etykiety AR wyglądały blisko rzeczywistego obiektu, z którym są powiązane. Ale musimy też uważać, aby wiele etykiet AR nie nakładało się na siebie i nie stało się nieczytelne. Istnieje wiele podejść do zarządzania umieszczaniem etykiet. Badamy jedną opcję: obliczanie, gdzie dana osoba patrzy w prawdziwej scenie i wyświetlanie etykiet AR tylko w tym miejscu.

Załóżmy na przykład, że użytkownik wchodzi w interakcję z aplikacją mobilną, która pomaga mu kupować niskokaloryczne płatki w sklepie spożywczym. W aplikacji AR z każdym zbożem są powiązane informacje o kaloriach. Zamiast fizycznie podnosić każde pudełko płatków śniadaniowych i czytać zawartość odżywczą, użytkownik może podnieść swoje urządzenie mobilne i skierować je na konkretne pudełko płatków śniadaniowych, aby ujawnić odpowiednie informacje.

Ale pomyśl o tym, jak zatłoczony jest alejek z płatkami w sklepie z różnymi opakowaniami. Bez jakiegoś sposobu zarządzania wyświetlaniem etykiet AR byłyby wyświetlane etykiety z informacjami o kaloriach dla wszystkich pudełek z płatkami zbożowymi. Niemożliwe byłoby określenie kaloryczności interesującego go zboża.

Śledząc jego oczy, możemy określić, na które pudełko płatków śniadaniowych patrzy użytkownik. Następnie wyświetlamy informacje o kaloriach dla tego konkretnego płatka zbożowego. Kiedy przenosi wzrok na inne pudełko, wyświetlamy liczby dla następnego, które rozważa. Jego ekran jest uporządkowany, informacje, których potrzebuje, są łatwo dostępne, a gdy potrzebuje dodatkowych informacji, możemy je wyświetlić.

Ten rodzaj rozwoju sprawia, że ​​jest to ekscytujący czas dla badań nad AR. Poprawia się nasza zdolność do integracji scen ze świata rzeczywistego z grafiką komputerową na wyświetlaczach mobilnych. To napędza perspektywę tworzenia wspaniałych nowych aplikacji, które poszerzają naszą zdolność do interakcji, uczenia się od otaczającego nas świata i czerpania z niego rozrywki.

O autorze

Ann McNamara, profesor nadzwyczajny wizualizacji, Uniwersytet Texas A&M

Ten artykuł został pierwotnie opublikowany w Konwersacje. Przeczytać oryginalny artykuł.

Powiązane książki

at