Jak komputery pomagają biologom odkrywać tajemnice życia

Po zsekwencjonowaniu liczącego trzy miliardy liter ludzkiego genomu rzuciliśmy się do nowego „omiki” era badań biologicznych. Naukowcy ścigają się teraz, aby zsekwencjonować genomy (wszystkie geny) lub proteomy (wszystkie białka) różnych organizmów – iw trakcie tego procesu kompilują ogromne ilości danych.

Na przykład, naukowiec może użyć narzędzi „omicznych”, takich jak sekwencjonowanie DNA, aby dowiedzieć się, które ludzkie geny są dotknięte wirusową grypą. Ale ponieważ ludzki genom ma łącznie co najmniej 25,000 XNUMX genów, liczba genów zmienionych nawet w tak prostym scenariuszu może potencjalnie wynosić tysiące.

Chociaż sekwencjonowanie i identyfikacja genów i białek nadaje im nazwę i miejsce, nie mówi nam, co robią. Musimy zrozumieć, w jaki sposób te geny, białka i wszystkie rzeczy pomiędzy wchodzą w interakcje w różnych procesach biologicznych.

Dziś nawet podstawowe eksperymenty dają duże zbiory danych, a jednym z największych wyzwań jest oddzielenie odpowiednich wyników od szumu tła. Komputery pomagają nam pokonać tę górę danych; ale mogą nawet pójść o krok dalej, pomagając nam w stawianiu hipotez naukowych i wyjaśnianiu nowych procesów biologicznych. Nauka o danych zasadniczo umożliwia najnowocześniejsze badania biologiczne.

Komputery na ratunek

Komputery mają wyjątkowe kwalifikacje do obsługi ogromnych zbiorów danych, ponieważ mogą jednocześnie śledzić wszystkie ważne warunki niezbędne do analizy.


wewnętrzna grafika subskrypcji


Chociaż oni może odzwierciedlać ludzkie błędy są zaprogramowane, komputery mogą wydajnie radzić sobie z dużymi ilościami danych i nie są nastawione na to, co znajome, jak to mogą mieć ludzie śledczy.

Komputery można również nauczyć szukania określonych wzorców w eksperymentalnych zestawach danych – koncepcja nazywana uczeniem maszynowym, po raz pierwszy zaproponowana w latach 1950. XX wieku, w szczególności przez matematyków Alan Turing. Algorytm, który nauczył się wzorców z zestawów danych, może zostać poproszony o wykonanie prognoz na podstawie nowych danych, których nigdy wcześniej nie spotkał.

Uczenie maszynowe zrewolucjonizowało badania biologiczne, ponieważ możemy teraz wykorzystywać duże zbiory danych i prosić komputery o pomoc w zrozumieniu podstawowej biologii.

Szkolenie komputerów do myślenia poprzez symulację procesów mózgowych

W naszym laboratorium zastosowaliśmy jeden interesujący rodzaj uczenia maszynowego, zwany sztuczną siecią neuronową (ANN). Mózgi są silnie połączonymi sieciami neuronów, które komunikują się poprzez wysyłanie impulsów elektrycznych przez okablowanie neuronowe. Podobnie ANN symuluje w komputerze sieć neuronów, które włączają się i wyłączają w odpowiedzi na sygnały innych neuronów.

Stosując algorytmy naśladujące procesy zachodzące w prawdziwych neuronach, możemy sprawić, by sieć nauczyła się rozwiązywać różnego rodzaju problemy. Google używa potężnej sieci ANN dla swojej sławnej teraz Projekt Deep Dream gdzie komputery mogą klasyfikować, a nawet tworzyć obrazy.

Nasza grupa bada układ odpornościowy, mając na celu: wymyślanie nowych terapii na raka. Wykorzystaliśmy modele obliczeniowe ANN do zbadania krótkich kodów białek powierzchniowych, których używają nasze komórki odpornościowe, aby określić, czy coś jest obce naszemu ciału i dlatego powinno zostać zaatakowane. Jeśli lepiej zrozumiemy, w jaki sposób nasze komórki odpornościowe (takie jak komórki T) rozróżniają komórki normalne/własne i nieprawidłowe/obce, możemy zaprojektować lepsze szczepionki i terapie.

Przeszukaliśmy publicznie dostępne katalogi tysięcy kodów białek zidentyfikowanych przez naukowców na przestrzeni lat. Podzieliliśmy ten zbiór danych na dwa: normalne kody białkowe pochodzące ze zdrowych komórek ludzkich oraz nieprawidłowe kody białkowe pochodzące z wirusów, nowotworów i bakterii. Następnie zwróciliśmy się do sztucznej sieci neuronowej opracowanej w naszym laboratorium.

Gdy wprowadziliśmy kody białek do SSN, algorytm był w stanie zidentyfikować: podstawowe różnice między normalnym a nieprawidłowym kodem białkowym. Ludziom trudno byłoby śledzić tego rodzaju zjawiska biologiczne – istnieją dosłownie tysiące takich kodów białkowych do przeanalizowania w dużym zbiorze danych. Potrzeba maszyny, aby rozwiązać te złożone problemy i zdefiniować nową biologię.

Prognozy za pomocą uczenia maszynowego

Najważniejszym zastosowaniem uczenia maszynowego w biologii jest jego użyteczność w prognozowaniu na podstawie dużych zbiorów danych. Prognozy oparte na komputerach mogą nadać sens Big Data, testować hipotezy i oszczędzać cenny czas i zasoby.

Na przykład w naszej dziedzinie biologii limfocytów T wiedza o tym, które kody białek wirusowych należy kierować, ma kluczowe znaczenie przy opracowywaniu szczepionek i terapii. Ale jest tak wiele indywidualnych kodów białkowych każdego wirusa, że ​​testowanie każdego z nich jest bardzo drogie i trudne.

Zamiast tego wyszkoliliśmy sztuczną sieć neuronową, aby pomóc maszynie poznać wszystkie ważne cechy biochemiczne dwóch typów kodów białkowych – normalnego i nieprawidłowego. Następnie poprosiliśmy model, aby „przewidział”, które nowe kody białek wirusowych przypominają kategorię „nieprawidłową” i mogą być obserwowane przez komórki T, a tym samym przez układ odpornościowy. Przetestowaliśmy model ANN na różnych białkach wirusowych, których nigdy wcześniej nie badano.

Rzeczywiście, jak pilny uczeń pragnący zadowolić nauczyciela, sieć neuronowa była w stanie dokładnie zidentyfikować większość takich kodów białek aktywujących komórki T w tym wirusie. Przetestowaliśmy również eksperymentalnie oznaczone przez nią kody białek, aby potwierdzić dokładność przewidywań SNN. Korzystając z tego modelu sieci neuronowej, naukowiec może zatem szybko przewidzieć wszystkie ważne krótkie kody białek ze szkodliwego wirusa i przetestować je, aby opracować leczenie lub szczepionkę, zamiast zgadywać i testować je indywidualnie.

Mądre wdrażanie uczenia maszynowego

Dzięki ciągłemu doskonaleniu, nauka o big data i uczenie maszynowe stają się coraz bardziej niezbędne w każdym rodzaju badań naukowych. Możliwości wykorzystania komputerów do trenowania i przewidywania w biologii są prawie nieograniczone. Od ustalenia, która kombinacja biomarkerów jest najlepsza do wykrywania choroby, po zrozumienie, dlaczego tylko niektórzy pacjenci odnoszą korzyści z konkretnego leczenia raka, eksploracja dużych zbiorów danych za pomocą komputerów stała się cenną ścieżką badań.

Oczywiście są ograniczenia. Największym problemem związanym z Big Data Science są same dane. Jeśli dane uzyskane przez badania -omiczne są na początku błędne lub oparte na tandetnej nauce, maszyny zostaną przeszkolone na złych danych – co prowadzi do złe prognozy. Uczeń jest tak dobry jak nauczyciel.

Ponieważ komputery nie są świadome (jeszcze), mogą w swoich poszukiwaniach wzorców wymyślić je nawet wtedy, gdy żadne nie istnieją, dając początek złym danym i nieodtwarzalnej nauce.

Niektórzy badacze wyrazili obawy, że komputery stają się czarne skrzynki danych dla naukowców, którzy nie rozumieją jasno manipulacji i machinacji, które przeprowadzają w ich imieniu.

Pomimo tych problemów, korzyści płynące z dużych zbiorów danych i maszyn będą nadal czynić z nich cennych partnerów w badaniach naukowych. Mając na uwadze pewne zastrzeżenia, jesteśmy wyjątkowo przygotowani do zrozumienia biologii oczami maszyny.

O autorzeKonwersacje

Sri Krishna, doktorant, Biological Design, School of Biological and Health Systems Engineering, Arizona State University oraz Diego Chowell, doktorant w dziedzinie matematyki stosowanej, Arizona State University

Ten artykuł został pierwotnie opublikowany w Konwersacje. Przeczytać oryginalny artykuł.


Powiązana książka:

at Rynek wewnętrzny i Amazon