Галлы
- 1 year ago
- 0
- 0
Протеогеномика — это область биологических исследований, в которой используется сочетание протеомики , геномики и транскриптомики , с целью обнаружения и идентификации пептидов . Протеогеномика применяется для идентификации новых пептидов путем сравнения спектров ( англ. ) с базой данных белков , которая была получена из геномной и транскриптомной информации. Протеогеномика часто относится к исследованиям, использующим протеомную информацию, полученную, например, методом масс-спектрометрии , для улучшения ( англ. ). Геномика изучает ДНК и генетический код целых организмов, в то время как транскриптомика имеет дело с последовательностями РНК и транскриптов . Протеомика использует и жидкостную хроматографию для определения и изучения функций белков. Протеомика используется для обнаружения всех белков, в организме, известных как его протеом. Нерешённая проблема протеомики заключается в том, что она основывается на предположении, что современные модели генов верны и что правильные последовательности белка можно найти с помощью базы данных эталонных последовательностей; Однако это не всегда так, поскольку некоторые пептиды не могут быть найдены в базах данных. Кроме того, новые белковые последовательности могут возникать в результате мутаций. Данная проблема может быть решена с использованием протеомных, геномных и транскриптомных данных. Совместное использование методов протеомики и геномики привело к появлению протеогеномики, которая выделилась в самостоятельную область в 2004 году.
Основная идея протеогеномного подхода заключается в идентификации пептидов путем сравнения данных МС / МС с белковыми базами данных, которые содержат предсказанные белковые последовательности. Базы данных белков создается различными способами с использованием геномных и транскриптомных данных. Ниже приведены некоторые способы создания баз данных белков:
Для создания базы данных, которая предсказывает белковые последовательности, могут быть использованы шесть возможных трансляций двухцепочечной молекулы ДНК. Ограничением этого метода является то, что базы данных будут очень большими из-за количества генерируемых последовательностей, большинство из которых не существуют в природе.
В этом методе белковая основа генерируется с помощью алгоритмов предсказания генов, которые позволяют идентифицировать . База данных, созданная таким образом, похожа на базу данных, созданную с помощью шестирамочной транскрипции, тем, что может иметь очень большой размер.
Белковые БД могут также быть созданы с использованием данных РНК -секвенирования, аннотированных РНК транскриптов, и вариантов белковых последовательностей. Кроме того, существуют другие более специализированные базы данных белков, которые могут быть созданы для корректной идентификации конкретных пептидов.
К другому методу идентификации белков в протеогеномике относится сравнительная протеогеномика, которая основана на сравнении протеомных данных нескольких связанных видов одновременно и использует гомологию между их белками для улучшения аннотаций с более высокой статистической достоверностью.
Среди многообразных применений протеогеномики улучшение аннотации генов у различных организмов. Как известно, генная аннотация включает в себя обнаружение генов и их функций. Особенно полезной протеогеномика стала в области создания и улучшения аннотаций геномов различных прокариотических организмов. Протеогеномный подход использовался в исследованиях по аннотации геномов различных микроорганизмов: Escherichia coli , различные виды бактерий родов Mycobacterium и .
Помимо улучшения аннотаций генов, протеогеномные исследования могут также предоставить ценную информацию о наличии запрограммированных сдвигов рамок считывания, удаление N-концевого остатка метионина, сигнальных пептидов, протеолиза и других посттрансляционных модификаций .
Протеогеномика может предложить методы идентификации пептидов, не имея проблемы в виде неполных и неточных белковых баз данных, с которой сталкивается протеомика; однако при использовании протеогеномного подхода возникают другие трудности. Одна из самых больших проблем протеогеномики — размер генерируемых баз данных белков. Статистически, большая база данных белков с большей вероятностью приведет к неправильному сопоставлению данных из базы данных белков с данными МС/МС, эта проблема может помешать идентификации новых пептидов. Большое количество ложноположительных результатов идентификации также представляет трудность при протеогеномном подходе. Ложноположительные результаты могут возникать в результате формирования очень больших баз данных белков, где несоответствующие данные приводят к неправильной идентификации. Другой проблемой является неправильное сопоставление спектров МС/МС с данными белковой последовательности, которые соответствуют аналогичному пептиду вместо фактически присутствующего. Возможно получение данных о пептиде, расположенном в нескольких сайтах, в результате чего эти данные могут быть интерпретированы различными способами. Несмотря на эти проблемы, существуют способы уменьшить количество возникающих ошибок. Например, при работе с очень большой базой данных белков можно сравнить идентифицированные новые пептидные последовательности со всеми последовательностями в базе данных, а затем сравнить посттрансляционные модификации. Затем можно определить, представляют ли две последовательности один и тот же пептид или это два разных пептида.