Введение
На этой земле живут миллиарды людей, и каждый из нас состоит из триллионов клеток. Точно так же, как каждый индивидуум уникален, даже генетически идентичные близнецы, ученые наблюдают различия между генетически идентичными клетками в наших телах.
Различия в расположении белков могут приводить к такой клеточной неоднородности. Белки играют существенную роль практически во всех клеточных процессах. Часто множество различных белков собираются вместе в определенном месте для выполнения задачи, и точный результат этой задачи зависит от того, какие белки присутствуют. Как вы можете себе представить, различные субклеточные распределения одного белка могут приводить к большой функциональной неоднородности между клетками. Выявление таких различий и выяснение того, как и почему они возникают, важно для понимания того, как функционируют клетки, как развиваются болезни и, в конечном счете, как разработать более эффективные методы лечения этих заболеваний.
Атлас белков человека
Атлас белков человека (Human Protein Atlas) – это шведская программа, запущенная в 2003 году с целью картирования всех белков человека в клетки, ткани и органы. Данные в базе данных находятся в свободном доступе для ученых по всему миру, что позволяет им исследовать клеточный состав человеческого организма. Решение задачи классификации одноклеточных изображений поможет человечеству охарактеризовать одноклеточную гетерогенность в нашей большой коллекции изображений путем создания более точных аннотаций субклеточных локализаций для тысяч человеческих белков в отдельных клетках.
Изучение даже одной клетки позволяет обнаружить механизмы, которые слишком сложно увидеть при исследовании нескольких клеток. Важность изучения отдельных клеток отражена в продолжающейся революции в биологии, сосредоточенной вокруг технологий анализа отдельных клеток. Современные модели машинного обучения для классификации паттернов локализации белка на изображениях под микроскопом дают общее представление обо всей популяции клеток. Однако одноклеточная революция в биологии требует моделей, которые могут точно классифицировать паттерны в каждой отдельной клетке на изображении.
Обзор существующих решений
За последние пять десятилетий ученые смогли распознать формы белков в лабораторных условиях с помощью экспериментальных методов, таких как криоэлектронная микроскопия, ядерный магнитный резонанс или рентгеноструктурный анализ, но каждый метод был выведен путем множества проб и ошибок, которые заняли годы и стоили десятки тысяч долларов. Вот почему сейчас биологи обращаются к методам ИИ в качестве альтернативы долгому и трудоемкому процессу исследования сложных белков.
И всё же, область геномики имеет достаточно данных благодаря быстрому снижению стоимости генетического секвенирования. В результате в последние несколько лет все большую популярность приобретают подходы к проблеме прогнозирования, использующие глубокое обучение и основанные на данных генома. Работа DeepMind над этой проблемой привела к появлению AlphaFold - системы искусственного интеллекта, способной распознавать более 350000 различных структур белка.
Система принимает на вход последовательность аминокислот и на выход выдает расстояние и углы связей между ними, что позволяет восстановить структуру. Тогда алгоритм по точности и скорости правильных вычислений превзошел все другие существующие алгоритмы и занял первое место на соревнованиях предсказания структуры белка CASP, которые проходят с 1994 года.
В основе последней версии AlphaFold лежит новый подход к машинному обучению, который включает физические и биологические знания о структуре белка, используя выравнивание нескольких последовательностей, при разработке алгоритма глубокого обучения. На вход нейросеть принимает не только саму последовательность, а ее множественное выравнивание на последовательности из разных больших баз данных существующих белков.
И за этим стоит идея, которую использовала команда DeepMind. Она прекрасно демонстрирует, что для решения задач биоинформатическими методами нужно быть не только хорошим математиком и программистом, но и понимать их биологический фундамент.
Рис. 1. 3D модель белка, построенная с помощью AlphaFold
Принцип работы
Идея состоит в следующем: берётся последовательность белка и выравнивается она на все известные человечеству последовательности белков. Их очень-очень много, намного больше, чем структур, ведь получить последовательность белка, зная последовательность ДНК, очень просто.
Находятся похожие друг на друга
по последовательности белки. Если они похожи по последовательности, то похожи они, скорее всего, и по функции, и по структуре. Но ведь не обязательно есть структура этих похожих белков (скорее всего, ее и нет). Однако,
её роль не столь значительна, ведь из схожести
можно вывести другие
закономерности.
Аминокислоты белка между собой взаимодействуют – формируют устойчивые (и не очень) связи, которые формируют, поддерживают и стабилизируют его структуру.
И если одна
из взаимодействующих аминокислот внезапно поменяется, сдвинется или пропадет,
то ее визави может расстроиться, сместиться и перестать поддерживать структуру. Из-за
этого белок расплетется и потеряет способность
функционировать. А если он потеряет возможность нормально функционировать, может сильно пострадать здоровье и качество
жизни организма, в котором он
живет. И такой организм вряд ли долго проживет и размножится, и вряд ли мы
успеем его просеквенировать.
Из этого исходит вывод, что если пары аминокислот образуют критические
взаимодействия, то в похожих белках они либо не меняются, либо меняются синхронно. Поэтому, глядя на
выравнивание похожих белков, можно посчитать
корреляцию каждой пары позиций и построить то, что называется матрицей коэволюции. Где корреляция выше, там, вероятнее
всего, есть критические взаимодействия, а, следовательно, эти позиции, вероятнее всего, находятся в пространстве рядом друг с другом.
Структура
AlphaFold является сверточной
нейросетью, которая относится к классу ResNet , что позволяет ей обучаться более эффективно. ResNet – это искусственная нейронная сеть (ANN), которая
строится на конструкциях, известных из пирамидальных клеток в коре головного мозга. Остаточные нейронные сети делают это, используя
пропуск соединений или ярлыки для перехода через некоторые слои. Типичные модели ResNet реализуются с пропусками двойного
или трехслойного уровня,
которые содержат нелинейности (ReLU)
и нормализацию пакетов между ними. Для изучения весов
пропусков может использоваться дополнительная матрица весов; эти модели известны как сети скоростных дорог. Модели с несколькими параллельными пропусками называются плотными сетями. В контексте остаточных нейронных сетей невязочная сеть может быть описана как обычная сеть. Обучающей выборкой
служили приблизительно 30 000 экспериментально полученных структур из
базы PDB, и обучение заняло примерно
5 дней. Однако, значительного прорыва
именно в построении архитектуры сети здесь не случилось
– просто мощная и логично выстроенная нейросеть. И успех ее кроется,
конечно, именно в выборе входных
и выходных данных.
Рис. 2. Структура нейронной сети AlphaFold
Вывод
Решение проблемы
распознавания белков человека во многом поможет в изучении природы болезней. При успешной классификации
изображений белков учёные смогут более точно смоделировать пространственную организацию
клетки человека и предоставить научному сообществу новые данные о клетках с открытым доступом, что может ускорить наше
растущее понимание того, как функционируют клетки человека и как развиваются болезни.
Распознавание
изображений для данной задачи можно реализовать при помощи искусственных нейронных сетей. Одной из таких является
нейросеть AlphaFold - проект
компании Deepmind. Он прекрасно себя зарекомендовал в работе с классификацией белков и на данный момент является
наилучшим инструментом для этой задачи.