Interested Article - Предсказание генов

Предсказа́ние ге́нов — это определение кодирующих и регуляторных последовательностей ДНК в геноме : белковых генов и генов некодирующих РНК , промоторов , энхансеров и прочее.

Ранние методы поиска генов основывались на трудоёмких экспериментах с живыми организмами и клетками , которые давали лишь приближённый результат. Статистический анализ частот кроссинговера между известными генами позволял узнать, как они расположены на хромосоме относительно друг друга, и в итоге составить генетическую карту . Сегодня же, благодаря развитию компьютерной техники и методов , предсказание генов стало рутинной задачей в биоинформатике .

Необходимо различать предсказание функциональных участков от предсказания функции или продукта гена. Строгое определение функции или доказательство существования какого-либо белка может основываться только на экспериментальной работе , хотя современной биоинформатике уже удаётся с высокой точностью определять функцию гена только по его последовательности.

Предсказание генов — один из ключевых этапов в вида , следующий за маскированием повторов и оценкой качества его сборки .

Существует множество алгоритмов , разработанных в последние десятилетия, позволяющих определить точное положение гена в геноме. Существуют три основных подхода к предсказанию генов в геноме: эмпирический (внешний), неэмпирический (внутренний, ab initio ) и смешанный .

Эмпирический метод

Эмпирический подход наиболее универсальный. В базах данных присутствует огромное количество уже описанных мРНК , белков, гомологичных последовательностей, что создает огромное количество информации для использования в процессе предсказания генов .

Эмпирические средства поиска генов, которые также упоминаются как «средства поиска генов на основе сходства последовательностей», обнаруживают гены путем выравнивания известных последовательностей кДНК и белка по нехарактеризованным последовательностям генома .

Особенно полезно знать белковые последовательности других видов, так как полипептидные последовательности часто являются более консервативными , чем лежащие в основе нуклеотидные последовательности и могут быть легко выровнены. Последовательности аминокислот полезны при определении наличия генных локусов , но не всегда дают информацию о точной структуре гена .

Информация о транскриптах РНК дает очень точную информацию для правильного предсказания структуры генов, но эти данные гораздо менее полны и часто сильно зашумлены. Кроме того, транскрипты известны не для всех генов. Иногда в них могут присутствовать интроны из-за неполного созревания мРНК. Ключевым является точное выравнивание внешних данных: транскрипты должны быть выровнены с учётом сплайсинга сплайсингу ( экзон -интронной структуры для генов эукариот ), а белковые последовательности должны сравниваться с шестью каркасами трансляции нуклеотидных последовательностей. Также необходимо задать пороговые значения и пропускать слишком или менее консервативные гены .

Неэмпирические методы

Неэмпирический подход заключается в использовании структуры генов в качестве шаблона для обнаружения генов, что также называется ab initio -предсказанием. Этот метод более трудоёмкий, поскольку для него необходимо создавать статистические модели . Генные предсказания ab initio основаны на двух типах информации о последовательности: датчики сигналов и датчики контента (под датчиком здесь понимается некий набор признаков). Датчики сигнала относятся к мотивам коротких последовательностей, таким как места сплайсинга, точки разветвления, , стартовые и стоп-кодоны . Обнаружение экзона должно опираться на датчики контента, учитывающие модели использования кодонов .

Генные искатели ab initio не используют сходство последовательностей и вместо этого полагаются на собственные генные измерения, включая датчики сигнала и содержимого .

Первостепенное значение в нем имеет обучающий набор структурно хорошо аннотированных генов, используемых для построения моделей и обучения программного обеспечения. Поскольку каждый геном уникален, эти модели и программное обеспечение должны быть специфичными для каждого генома и, следовательно, должны быть перестроены и переобучены для каждого нового вида. Это, однако, также является большим преимуществом этого подхода, так как он способен предсказывать быстро развивающиеся и видоспецифичные гены .

У прокариот гены содержат характерные и хорошо изученные консенсусные элементы -35 и -10 ( Прибнов-бокс ), которые легко обнаружить, а также сайты связывания транскрипционных факторов . Кроме того, белок-кодирующие гены состоит из одной непрерывной рамки считывания длиной от сотен до нескольких тысяч пар оснований , заканчивающихся стоп-кодоном . В случайных последовательностях стоп- кодоны встречаются гораздо чаще (3 из 64 кодонов — стоп-кодоны, то есть в среднем 1 стоп-кодон на 20—25 кодонов, или 60—75 нуклеотидов ), поэтому наличие длинных рамок считывания — уже признак гена. Прочие статистические параметры белок-кодирующей ДНК также легко заметны на последовательностях такой длины. Как следствие, системы предсказания прокариотических генов действуют весьма прямолинейно и обладают высокой точностью .

У эукариот из-за сплайсинга белок-кодирующие последовательности ДНК (экзоны) прерываются некодирующими участками (интронами). Сайты сплайсинга — ещё один сигнал для распознавания генов. Типичный белок-кодирущий ген человека может быть разделён на десяток экзонов, длина каждого из которых обычно составляет 100—200 нуклеотидов. На таких коротких участках гораздо сложнее заметить отличия белок-кодирующей ДНК от случайной .

Программы для поиска генов как у про-, так и у эукариот обычно используют скрытые марковские модели (НММ) и машинное обучение, чтобы объединить информацию от различных сигналов и выявленных закономерностей. GLIMMER — широко используемая и высокоточная система поиска генов в прокариотах, GeneMark — ещё одна популярная система. В сравнении с прокариотическими, неэмперический поиск генов эукариот достиг более скромных результатов. Лучшие программы для эукариот — GENSCAN и geneid. SNAP, как и Genscan, основана на НММ и является попыткой создать универсальный искатель генов, который может работать на геноме, в котором ему не была дана обучающая выборка . В других программах, как например, mSplicer , CONTRAST , или mGene применяется машинное обучение и метод опорных векторов. Они строят с применением методов НММ, SVM или (от англ. Conditional random field, CRF ) для составления функции вероятности наличия гена .

Другие сигналы

Для предсказания генов используются статистики , GC-состав , равномерность, энтропия участков ДНК, длина рамок считывания, наборы сайтов связывания рибосом , а также промоторных , экзонно-интронных сайтов и сайтов сплайсинга, фрактальная размерность , Фурье-преобразование закодированной цифрами ДНК и параметры .

Качество предсказаний можно улучшить, применяя не только непосредственно детектируемые сигналы. Например, вторичная структура РНК может помочь с поиском сайтов сплайсинга и других регуляторных мотивов .

Нейронные сети

Пример такой сети — нейронная сеть, определяющая положения сайтов сплайсинга в заданной последовательности ДНК. В этой сети применяется метод скользящего окна, при котором из общей последовательности извлекаются пересекающиеся подпоследовательности (окна) с некоторым шагом. Полученный от каждого окна сигнал сглаживается и фильтруется, после чего для каждого нуклеотида определяется вероятность того, что он входит в сайт сплайсинга. Больший размер окна позволяет повысить точность предсказания, но увеличивает время вычислений. В сеть не было заложено никаких априорных знаний, но в результате обучения на сайтах 16965 генов специфичность и чувствительность распознавания превысили 80 % .

Совмещённый подход

Совмещенный подход является наиболее широко используемым, так как он сочетает лучшее из эмпирического и неэмпирического методов, дополняя результаты ab initio внешней информацией. Программы MAKER и MAKER-P могут быть применены для аннотирования генов во вновь собранных геномах, обновления или объединения устаревших аннотаций в свете новых данных. MAKER и MAKER-P могут быстро аннотировать геномы любого размера и масштабировать в соответствии с доступными вычислительными ресурсами .

MAKER и MAKER-P комментируют и маскируют повторяющиеся элементы в геноме и сопоставляют данные о белках и РНК со сборкой с учетом сплайсинга для точной идентификации сайтов сплайсинга. Они также запускают несколько предсказателей генов ab initio , сравнивают все предсказанные генные модели с данными о выравнивании РНК и белков, а затем пересматривают модели генов ab initio в свете этих данных. Модели генов с наилучшей поддержкой выбираются с использованием показателя качества, называемого расстояние редактирования аннотации ( англ. annotation edition distance, AED ) .

MAKER и MAKER-P являются высокопараллельными приложениями с поддержкой интерфейса передачи сообщений ( англ. message раss interface, MPI ); это позволяет им эффективно использовать несколько процессоров и аннотировать крупные геномы млекопитающих и растений буквально за несколько часов .

MAKER был разработан как простой в использовании конвейер аннотаций для геномов модельных организмов. Главная цель MAKER состояла в том, чтобы дать возможность небольшим независимым исследовательским группам без обширного опыта или ресурсов в области биоинформатики комментировать геномы .

MAKER 2 является обратно совместимым расширением, улучшил возможности генного поиска; предлагая динамические средства для поиска генов и предоставляя новые средства для контроля качества с использованием AED, а также средства для обновления устаревших аннотаций в свете новых данных о транскриптах и белках .

MAKER-P предоставляет средства для аннотирования сложных геномов растений , а также для автоматического пересмотра, контроля качества и управления существующими аннотациями генома. MAKER-P также предоставляет средства для аннотации генов некодирующих РНК и аннотации псевдогенов . MAKER-P значительно быстрее, чем другие конвейеры аннотирования генома, включая оригинальный MAKER2, что позволяет масштабировать его даже до самых крупных геномов растений .

Предсказание и компьютерный анализ экзон-интронной структуры генов

Обычно система предсказания экзон-интронной структуры базируется на следующих соображениях: во-первых, в подавляющем большинстве случаев интроны начинаются и заканчиваются консервативными динуклеотидами: G Т — в начале интрона и А G — в его конце. Во-вторых, в областях, прилегающих к экзон-интронным границам, есть определенное предпочтение нуклеотидов в других позициях, что позволяет строить разного рода профили для распознавания границ. Однако построенные таким образом распознающие правила все еще достаточно слабы. В-третьих, если нас интересует только кодирующая часть гена, то для более чёткого выбора сайтов сплайсинга можно использовать соображение, что на том, что получится после вырезания интронов, не должно быть стоп-кодонов. Но и это не позволяет надежно определять структуру генов. Можно применить статистику кодонов и тем самым значительно улучшить качество предсказания до 70 %. В настоящее время наиболее популярная техника решения задачи поиска белоккодирующих областей основана на использовании скрытых Марковских цепей, учитывающих все перечисленные соображения .

Тем не менее, применение статистических методов предсказания структуры генов при анализе больших геномных фрагментов имеет несколько трудно преодолимых недостатков. Во-первых, нет возможности локализовать границы генов и предсказания часто объединяют несколько генов, закодированных в последовательности, в один очень большой ген, или, напротив, расщепляют гены на два и более. Во-вторых, применение этих методов затруднительно при наличии ошибок в геномной последовательности. Особенно они чувствительны к сдвигу рамки. Наконец, в-третьих, эти методы позволяют предсказывать только одну изоформу , игнорируя альтернативный сплайсинг .

Сравнительная геномика

Благодаря секвенированию большого числа геномов различных организмов, стал возможен поиск генов путём сравнительной геномики . Этот подход основан на том, что гены и регуляторные элементы мутируют медленней, чем прочие элементы генома, поскольку находятся под большим давлением естественного отбора . Это позволяет детектировать гены как консервативные последовательности, сравнивая геномы близкородственных видов. Этот подход впервые был применён на человеческом и мышином геномах и реализован в программах SLAM, SGP, TWINSCAN/N-SCAN и CONTRAST .

Множественные информанты

Программа TWINSCAN для поиска ортологичных генов учитывает только синтению человеческого и мышиного геномов. Такие программы, как N-SCAN и CONTRAST, позволяют совмещать данные из множества организмов. Использование множества источников данных приводит к значительному улучшению точности .

Программа CONTRAST состоит из двух частей. Первая — классификатор, опознающий сайты сплайсинга, старт- и стоп-кодоны. Вторая часть строит окончательную модель при помощи машинного обучения, принимая на вход данные от первого классификатора и множественных выравниваний с другими геномами. Разделение задачи надвое позволяет снизить объём обучающей выборки и размер окна. Использование уже готового классификатора значительно сокращает время работы программы .

Предсказание псевдогенов

Поиск псевдогенов — основывается на существующих ab initio методах и методах сравнительной геномики с добавлением специальных фильтров.

Пример такого фильтра — детектор потери функции, который ищет нонсенс мутации и сдвиги рамки считывания, нарушающие экспрессию функциональной последовательности ДНК .

Также применяется фильтрация ДНК по разнице в статистических параметрах между генами и псевдогенами, как например меньшее число CpG-островков в псевдогенах. Некоторые искатели генов детектируют такие сигналы, как отсутствие интронов и поли(А)-хвостов .

Для поиска псевдогенов в прокариотах применяется программа Psi-Fi (Ψ-Φ) .

Метагеномное предсказание генов

Метагеномные программы делятся на те, что используют принципы ab initio (программа GLIMMER-MG ) или сравнительную геномику (программа MEGAN5 ).

GLIMMER-MG — расширение GLIMMER, полагающееся в основном на подходе ab initio и использующее обучающую выборку из родственных организмов. Стратегия предсказания улучшена за счёт кластеризации генных данных по видам перед предсказанием. Кластеризация основана на техниках метагеномной филогенетической классификации. Примеры программ для кластеризации — Phym с интерполированными марковскими моделями и PhymmBL, пользующийся BLAST .

В основе MEGAN5 лежат методы сравнительной геномики. В этой программе применяется локальное выравнивание против базы известных последовательностей, но также и реализована классификация с использованием дополнительной информации о функции генов .

Примечания

Sleator R. D. (англ.) // Gene. — 2010. — Vol. 461, no. 1-2 . — P. 1—4. — doi : . — . [ ]
Yandell M. , Ence D. (англ.) // Nature reviews. Genetics. — 2012. — Vol. 13, no. 5 . — P. 329—342. — doi : . — . [ ]
↑ Dominguez Del Angel V. , Hjerde E. , Sterck L. , Capella-Gutierrez S. , Notredame C. , Vinnere Pettersson O. , Amselem J. , Bouri L. , Bocs S. , Klopp C. , Gibrat J. F. , Vlasova A. , Leskosek B. L. , Soler L. , Binzer-Panchal M. , Lantz H. (англ.) // F1000Research. — 2018. — Vol. 7 . — . [ ]
↑ Do J. H. , Choi D. K. (англ.) // Journal Of Microbiology (Seoul, Korea). — 2006. — April ( vol. 44 , no. 2 ). — P. 137—144 . — . [ ]
Wang Z. , Chen Y. , Li Y. (англ.) // Genomics, Proteomics & Bioinformatics. — 2004. — November ( vol. 2 , no. 4 ). — P. 216—221 . — . [ ]
↑ Rogozin I. B. , Makarova K. S. , Natale D. A. , Spiridonov A. N. , Tatusov R. L. , Wolf Y. I. , Yin J. , Koonin E. V. (англ.) // Nucleic acids research. — 2002. — Vol. 30, no. 19 . — P. 4264—4271. — . [ ]
Stewart Scherer. . — New York: Cold Spring Harbor, 2008. — P. .
↑ Korf I. (англ.) // BMC bioinformatics. — 2004. — Vol. 5. — P. 59. — doi : . — . [ ]
Rätsch G. , Sonnenburg S. , Srinivasan J. , Witte H. , Müller K. R. , Sommer R. J. , Schölkopf B. (англ.) // Public Library of Science for Computational Biology. — 2007. — Vol. 3, no. 2 . — P. e20. — doi : . — . [ ]
↑ Gross S. S. , Do C. B. , Sirota M. , Batzoglou S. (англ.) // Genome biology. — 2007. — Vol. 8, no. 12 . — P. 269. — doi : . — . [ ]
Schweikert G. , Behr J. , Zien A. , Zeller G. , Ong C. S. , Sonnenburg S. , Rätsch G. (англ.) // Nucleic acids research. — 2009. — Vol. 37. — P. 312—316. — doi : . — . [ ]
Saeys Y. , Rouzé P. , Van de Peer Y. (англ.) // Bioinformatics. — 2007. — Vol. 23, no. 4 . — P. 414—420. — doi : . — . [ ]
Hiller M. , Pudimat R. , Busch A. , Backofen R. (англ.) // Nucleic acids research. — 2006. — Vol. 34, no. 17 . — P. e117. — doi : . — . [ ]
Patterson D. J. , Yasuhara K. , Ruzzo W. L. (англ.) // Pacific Symposium on Biocomputing. Pacific Symposium on Biocomputing. — 2002. — P. 223—234. — . [ ]
Marashi S. A. , Goodarzi H. , Sadeghi M. , Eslahchi C. , Pezeshk H. (англ.) // Computational biology and chemistry. — 2006. — Vol. 30, no. 1 . — P. 50—57. — doi : . — . [ ]
Marashi S. A. , Eslahchi C. , Pezeshk H. , Sadeghi M. (англ.) // BMC bioinformatics. — 2006. — Vol. 7. — P. 297. — doi : . — . [ ]
Rogic, S (2006). (PDF) (PhD thesis). University of British Columbia. Архивировано из (PDF) 30 мая 2009 . Дата обращения: 4 апреля 2016 .
Johansen ∅ystein , Ryen Tom , Eftes∅l Trygve , Kjosmoen Thomas , Ruoff Peter. (англ.) // Computational Intelligence Methods for Bioinformatics and Biostatistics. — 2009. — P. 102—113 . — ISBN 9783642025037 . — ISSN . — doi : . [ ]
. Дата обращения: 4 апреля 2016. 3 апреля 2016 года.
↑ Campbell M. S. , Holt C. , Moore B. , Yandell M. (англ.) // Current Protocols In Bioinformatics. — 2014. — 12 December ( vol. 48 ). — P. 4—11 . — doi : . — . [ ]
↑ А. А. Миронов, М. С. Гельфанд. ПРЕДСКАЗАНИЕ И КОМПЬЮТЕРНЫЙ АНАЛИЗ ЭКЗОН-ИНТРОННОЙ СТРУКТУРЫ ГЕНОВ ЧЕЛОВЕКА. — 2004. — С. 82-91.
. (недоступная ссылка)
. Дата обращения: 4 апреля 2016. 17 марта 2016 года.
Alexander R. P. , Fang G. , Rozowsky J. , Snyder M. , Gerstein M. B. (англ.) // Nature reviews. Genetics. — 2010. — Vol. 11, no. 8 . — P. 559—571. — doi : . — . [ ]
Svensson O. , Arvestad L. , Lagergren J. (англ.) // Public Library of Science for Computational Biology. — 2006. — Vol. 2, no. 5 . — P. e46. — doi : . — . [ ]
Zhang Z. , Gerstein M. (англ.) // Current opinion in genetics & development. — 2004. — Vol. 14, no. 4 . — P. 328—335. — doi : . — . [ ]
Lerat E. , Ochman H. (англ.) // Genome research. — 2004. — Vol. 14, no. 11 . — P. 2273—2278. — doi : . — . [ ]
. Дата обращения: 4 апреля 2016. 7 апреля 2016 года.
. Дата обращения: 4 апреля 2016. Архивировано из 29 марта 2016 года.
Kelley D. R. , Liu B. , Delcher A. L. , Pop M. , Salzberg S. L. (англ.) // Nucleic acids research. — 2012. — Vol. 40, no. 1 . — P. e9. — doi : . — . [ ]
↑ Huson D. H. , Mitra S. , Ruscheweyh H. J. , Weber N. , Schuster S. C. (англ.) // Genome research. — 2011. — Vol. 21, no. 9 . — P. 1552—1560. — doi : . — . [ ]