Предсказание структуры белка
- 1 year ago
- 0
- 0
Предсказа́ние ге́нов — это определение кодирующих и регуляторных последовательностей ДНК в геноме : белковых генов и генов некодирующих РНК , промоторов , энхансеров и прочее.
Ранние методы поиска генов основывались на трудоёмких экспериментах с живыми организмами и клетками , которые давали лишь приближённый результат. Статистический анализ частот кроссинговера между известными генами позволял узнать, как они расположены на хромосоме относительно друг друга, и в итоге составить генетическую карту . Сегодня же, благодаря развитию компьютерной техники и методов , предсказание генов стало рутинной задачей в биоинформатике .
Необходимо различать предсказание функциональных участков от предсказания функции или продукта гена. Строгое определение функции или доказательство существования какого-либо белка может основываться только на экспериментальной работе , хотя современной биоинформатике уже удаётся с высокой точностью определять функцию гена только по его последовательности.
Предсказание генов — один из ключевых этапов в вида , следующий за маскированием повторов и оценкой качества его сборки .
Существует множество алгоритмов , разработанных в последние десятилетия, позволяющих определить точное положение гена в геноме. Существуют три основных подхода к предсказанию генов в геноме: эмпирический (внешний), неэмпирический (внутренний, ab initio ) и смешанный .
Эмпирический подход наиболее универсальный. В базах данных присутствует огромное количество уже описанных мРНК , белков, гомологичных последовательностей, что создает огромное количество информации для использования в процессе предсказания генов .
Эмпирические средства поиска генов, которые также упоминаются как «средства поиска генов на основе сходства последовательностей», обнаруживают гены путем выравнивания известных последовательностей кДНК и белка по нехарактеризованным последовательностям генома .
Особенно полезно знать белковые последовательности других видов, так как полипептидные последовательности часто являются более консервативными , чем лежащие в основе нуклеотидные последовательности и могут быть легко выровнены. Последовательности аминокислот полезны при определении наличия генных локусов , но не всегда дают информацию о точной структуре гена .
Информация о транскриптах РНК дает очень точную информацию для правильного предсказания структуры генов, но эти данные гораздо менее полны и часто сильно зашумлены. Кроме того, транскрипты известны не для всех генов. Иногда в них могут присутствовать интроны из-за неполного созревания мРНК. Ключевым является точное выравнивание внешних данных: транскрипты должны быть выровнены с учётом сплайсинга сплайсингу ( экзон -интронной структуры для генов эукариот ), а белковые последовательности должны сравниваться с шестью каркасами трансляции нуклеотидных последовательностей. Также необходимо задать пороговые значения и пропускать слишком или менее консервативные гены .
Неэмпирический подход заключается в использовании структуры генов в качестве шаблона для обнаружения генов, что также называется ab initio -предсказанием. Этот метод более трудоёмкий, поскольку для него необходимо создавать статистические модели . Генные предсказания ab initio основаны на двух типах информации о последовательности: датчики сигналов и датчики контента (под датчиком здесь понимается некий набор признаков). Датчики сигнала относятся к мотивам коротких последовательностей, таким как места сплайсинга, точки разветвления, , стартовые и стоп-кодоны . Обнаружение экзона должно опираться на датчики контента, учитывающие модели использования кодонов .
Генные искатели ab initio не используют сходство последовательностей и вместо этого полагаются на собственные генные измерения, включая датчики сигнала и содержимого .
Первостепенное значение в нем имеет обучающий набор структурно хорошо аннотированных генов, используемых для построения моделей и обучения программного обеспечения. Поскольку каждый геном уникален, эти модели и программное обеспечение должны быть специфичными для каждого генома и, следовательно, должны быть перестроены и переобучены для каждого нового вида. Это, однако, также является большим преимуществом этого подхода, так как он способен предсказывать быстро развивающиеся и видоспецифичные гены .
У прокариот гены содержат характерные и хорошо изученные консенсусные элементы -35 и -10 ( Прибнов-бокс ), которые легко обнаружить, а также сайты связывания транскрипционных факторов . Кроме того, белок-кодирующие гены состоит из одной непрерывной рамки считывания длиной от сотен до нескольких тысяч пар оснований , заканчивающихся стоп-кодоном . В случайных последовательностях стоп- кодоны встречаются гораздо чаще (3 из 64 кодонов — стоп-кодоны, то есть в среднем 1 стоп-кодон на 20—25 кодонов, или 60—75 нуклеотидов ), поэтому наличие длинных рамок считывания — уже признак гена. Прочие статистические параметры белок-кодирующей ДНК также легко заметны на последовательностях такой длины. Как следствие, системы предсказания прокариотических генов действуют весьма прямолинейно и обладают высокой точностью .
У эукариот из-за сплайсинга белок-кодирующие последовательности ДНК (экзоны) прерываются некодирующими участками (интронами). Сайты сплайсинга — ещё один сигнал для распознавания генов. Типичный белок-кодирущий ген человека может быть разделён на десяток экзонов, длина каждого из которых обычно составляет 100—200 нуклеотидов. На таких коротких участках гораздо сложнее заметить отличия белок-кодирующей ДНК от случайной .
Программы для поиска генов как у про-, так и у эукариот обычно используют скрытые марковские модели (НММ) и машинное обучение, чтобы объединить информацию от различных сигналов и выявленных закономерностей. GLIMMER — широко используемая и высокоточная система поиска генов в прокариотах, GeneMark — ещё одна популярная система. В сравнении с прокариотическими, неэмперический поиск генов эукариот достиг более скромных результатов. Лучшие программы для эукариот — GENSCAN и geneid. SNAP, как и Genscan, основана на НММ и является попыткой создать универсальный искатель генов, который может работать на геноме, в котором ему не была дана обучающая выборка . В других программах, как например, mSplicer , CONTRAST , или mGene применяется машинное обучение и метод опорных векторов. Они строят с применением методов НММ, SVM или (от англ. Conditional random field, CRF ) для составления функции вероятности наличия гена .
Для предсказания генов используются статистики , GC-состав , равномерность, энтропия участков ДНК, длина рамок считывания, наборы сайтов связывания рибосом , а также промоторных , экзонно-интронных сайтов и сайтов сплайсинга, фрактальная размерность , Фурье-преобразование закодированной цифрами ДНК и параметры .
Качество предсказаний можно улучшить, применяя не только непосредственно детектируемые сигналы. Например, вторичная структура РНК может помочь с поиском сайтов сплайсинга и других регуляторных мотивов .
Пример такой сети — нейронная сеть, определяющая положения сайтов сплайсинга в заданной последовательности ДНК. В этой сети применяется метод скользящего окна, при котором из общей последовательности извлекаются пересекающиеся подпоследовательности (окна) с некоторым шагом. Полученный от каждого окна сигнал сглаживается и фильтруется, после чего для каждого нуклеотида определяется вероятность того, что он входит в сайт сплайсинга. Больший размер окна позволяет повысить точность предсказания, но увеличивает время вычислений. В сеть не было заложено никаких априорных знаний, но в результате обучения на сайтах 16965 генов специфичность и чувствительность распознавания превысили 80 % .
Совмещенный подход является наиболее широко используемым, так как он сочетает лучшее из эмпирического и неэмпирического методов, дополняя результаты ab initio внешней информацией. Программы MAKER и MAKER-P могут быть применены для аннотирования генов во вновь собранных геномах, обновления или объединения устаревших аннотаций в свете новых данных. MAKER и MAKER-P могут быстро аннотировать геномы любого размера и масштабировать в соответствии с доступными вычислительными ресурсами .
MAKER и MAKER-P комментируют и маскируют повторяющиеся элементы в геноме и сопоставляют данные о белках и РНК со сборкой с учетом сплайсинга для точной идентификации сайтов сплайсинга. Они также запускают несколько предсказателей генов ab initio , сравнивают все предсказанные генные модели с данными о выравнивании РНК и белков, а затем пересматривают модели генов ab initio в свете этих данных. Модели генов с наилучшей поддержкой выбираются с использованием показателя качества, называемого расстояние редактирования аннотации ( англ. annotation edition distance, AED ) .
MAKER и MAKER-P являются высокопараллельными приложениями с поддержкой интерфейса передачи сообщений ( англ. message раss interface, MPI ); это позволяет им эффективно использовать несколько процессоров и аннотировать крупные геномы млекопитающих и растений буквально за несколько часов .
MAKER был разработан как простой в использовании конвейер аннотаций для геномов модельных организмов. Главная цель MAKER состояла в том, чтобы дать возможность небольшим независимым исследовательским группам без обширного опыта или ресурсов в области биоинформатики комментировать геномы .
MAKER 2 является обратно совместимым расширением, улучшил возможности генного поиска; предлагая динамические средства для поиска генов и предоставляя новые средства для контроля качества с использованием AED, а также средства для обновления устаревших аннотаций в свете новых данных о транскриптах и белках .
MAKER-P предоставляет средства для аннотирования сложных геномов растений , а также для автоматического пересмотра, контроля качества и управления существующими аннотациями генома. MAKER-P также предоставляет средства для аннотации генов некодирующих РНК и аннотации псевдогенов . MAKER-P значительно быстрее, чем другие конвейеры аннотирования генома, включая оригинальный MAKER2, что позволяет масштабировать его даже до самых крупных геномов растений .
Обычно система предсказания экзон-интронной структуры базируется на следующих соображениях: во-первых, в подавляющем большинстве случаев интроны начинаются и заканчиваются консервативными динуклеотидами: G Т — в начале интрона и А G — в его конце. Во-вторых, в областях, прилегающих к экзон-интронным границам, есть определенное предпочтение нуклеотидов в других позициях, что позволяет строить разного рода профили для распознавания границ. Однако построенные таким образом распознающие правила все еще достаточно слабы. В-третьих, если нас интересует только кодирующая часть гена, то для более чёткого выбора сайтов сплайсинга можно использовать соображение, что на том, что получится после вырезания интронов, не должно быть стоп-кодонов. Но и это не позволяет надежно определять структуру генов. Можно применить статистику кодонов и тем самым значительно улучшить качество предсказания до 70 %. В настоящее время наиболее популярная техника решения задачи поиска белоккодирующих областей основана на использовании скрытых Марковских цепей, учитывающих все перечисленные соображения .
Тем не менее, применение статистических методов предсказания структуры генов при анализе больших геномных фрагментов имеет несколько трудно преодолимых недостатков. Во-первых, нет возможности локализовать границы генов и предсказания часто объединяют несколько генов, закодированных в последовательности, в один очень большой ген, или, напротив, расщепляют гены на два и более. Во-вторых, применение этих методов затруднительно при наличии ошибок в геномной последовательности. Особенно они чувствительны к сдвигу рамки. Наконец, в-третьих, эти методы позволяют предсказывать только одну изоформу , игнорируя альтернативный сплайсинг .
Благодаря секвенированию большого числа геномов различных организмов, стал возможен поиск генов путём сравнительной геномики . Этот подход основан на том, что гены и регуляторные элементы мутируют медленней, чем прочие элементы генома, поскольку находятся под большим давлением естественного отбора . Это позволяет детектировать гены как консервативные последовательности, сравнивая геномы близкородственных видов. Этот подход впервые был применён на человеческом и мышином геномах и реализован в программах SLAM, SGP, TWINSCAN/N-SCAN и CONTRAST .
Программа TWINSCAN для поиска ортологичных генов учитывает только синтению человеческого и мышиного геномов. Такие программы, как N-SCAN и CONTRAST, позволяют совмещать данные из множества организмов. Использование множества источников данных приводит к значительному улучшению точности .
Программа CONTRAST состоит из двух частей. Первая — классификатор, опознающий сайты сплайсинга, старт- и стоп-кодоны. Вторая часть строит окончательную модель при помощи машинного обучения, принимая на вход данные от первого классификатора и множественных выравниваний с другими геномами. Разделение задачи надвое позволяет снизить объём обучающей выборки и размер окна. Использование уже готового классификатора значительно сокращает время работы программы .
Поиск псевдогенов — основывается на существующих ab initio методах и методах сравнительной геномики с добавлением специальных фильтров.
Пример такого фильтра — детектор потери функции, который ищет нонсенс мутации и сдвиги рамки считывания, нарушающие экспрессию функциональной последовательности ДНК .
Также применяется фильтрация ДНК по разнице в статистических параметрах между генами и псевдогенами, как например меньшее число CpG-островков в псевдогенах. Некоторые искатели генов детектируют такие сигналы, как отсутствие интронов и поли(А)-хвостов .
Для поиска псевдогенов в прокариотах применяется программа Psi-Fi (Ψ-Φ) .
Метагеномные программы делятся на те, что используют принципы ab initio (программа GLIMMER-MG ) или сравнительную геномику (программа MEGAN5 ).
GLIMMER-MG — расширение GLIMMER, полагающееся в основном на подходе ab initio и использующее обучающую выборку из родственных организмов. Стратегия предсказания улучшена за счёт кластеризации генных данных по видам перед предсказанием. Кластеризация основана на техниках метагеномной филогенетической классификации. Примеры программ для кластеризации — Phym с интерполированными марковскими моделями и PhymmBL, пользующийся BLAST .
В основе MEGAN5 лежат методы сравнительной геномики. В этой программе применяется локальное выравнивание против базы известных последовательностей, но также и реализована классификация с использованием дополнительной информации о функции генов .