Предсказание структуры белка
- 1 year ago
- 0
- 0
Предсказа́ние втори́чной структу́ры РНК — метод определения вторичной структуры нуклеиновой кислоты по последовательности её нуклеотидов . Вторичную структуру можно предсказывать для единичной последовательности или анализировать множественное выравнивание семейства родственных РНК .
Вторичная структура нуклеиновой кислоты зависит, главным образом, от спаривания оснований друг с другом и стэкинг -взаимодействий. Однако во многих случаях вторичная структура РНК сохраняется в ходе эволюции в большей степени, чем её первичная последовательность . Многие способы предсказания вторичной структуры основаны на методе динамического программирования и не в состоянии эффективно выявлять псевдоузлы .
Несмотря на схожесть, существуют некоторые различия в методах предсказания структур ДНК и РНК. В естественных условиях ДНК чаще всего представляет собой полностью комплементарный дуплекс, в то время как РНК образует сложные вторичные и третичные структуры , как, например, у тРНК , рибосомальных РНК или сплайсосом . Происходит это отчасти потому, что дополнительный атом кислорода в составе рибозы увеличивает склонность к образованию водородной связи основной цепью нуклеиновой кислоты. Отличаются и энергетические параметры двух этих нуклеиновых кислот.
Вторичная структура небольших молекул РНК в значительной степени определяется сильными локальными взаимодействиями, такими как водородные связи и стэкинг-взаимодействия пар оснований . Сумма свободных энергий таких взаимодействий должна обеспечивать стабильность данной структуры. Для предсказания свободной энергии укладки вторичной структуры используется модель ближайшего соседа ( англ. nearest-neighbor model ). В этой модели изменение свободной энергии для каждого мотива зависит от последовательности самого мотива и ближайших к нему пар оснований . Модель и параметры минимальной энергии для классических Уотсон-Криковских пар, пары гуанин - урацил и петли были получены эмпирическими калориметрическими экспериментами, самые современные параметры были опубликованы в 2004 году , хотя большинство программных пакетов до сих пор использует предыдущий набор, собранный в 1999 году .
Самый простой способ найти структуру с минимальной свободной энергией — это генерировать все возможные структуры и вычислить для них свободную энергию, но число возможных структур последовательности экспоненциально возрастает с увеличением длины РНК (Количество вторичных структур = (1,8) N , где N — число нуклеотидов ) . Так, для РНК длиной всего в 200 пар нуклеотидов существует более 10 50 возможных структур со спаренными основаниями .
Одним из подходов к предсказанию вторичной структуры РНК является , основанный на динамическом программировании и заключающийся в нахождении структуры с наибольшим количеством пар оснований . Однако этот алгоритм слишком прост и не учитывает важные структурные свойства, такие как предпочтения определенных длин петель или предпочтения определенных ближайших соседей по структуре, возникающие вследствие стэкинг-взаимодействий между соседними парами оснований в шпильках РНК . Кроме того, решение часто бывает не единственное. В 1980 году Нуссинов с коллегами опубликовали адаптацию их подхода, используя простую энергетическую модель ближайших соседей .
Сворачивание РНК обусловлено физическими причинами, а не подсчётом и максимизацией числа спаренных оснований. Метод, предложенный в 1981 году Майклом Цукером и Патриком Стейглером, предполагает, что правильная структура в равновесии обладает наименьшей свободной энергией ( ΔG ) . ΔG вторичной структуры РНК оценивается как сумма свободных энергий петель, пар оснований и других элементов вторичной структуры. Важное отличие от более простого алгоритма Нуссинов заключается в том, что при вычислении энергии шпилек энергия стэкинга соответствует взаимодействию соседних пар оснований, а не самим парам .
Динамическое программирование позволяет проверить все возможные варианты вторичных структур РНК без непосредственного их создания. Алгоритм работает рекурсивно . Наилучшая структура с минимальной возможной энергией рассчитывается сперва для всевозможных маленьких подпоследовательностей, а затем — для всё больших и больших подпоследовательностей. Точное строение молекулы РНК определяется вычислением минимальной свободной энергии полной последовательности .
Алгоритмы динамического программирования обычно используются, чтобы обнаружить «хорошо вложенные» паттерны пар оснований, то есть те, которые образуют водородные связи, не перекрывающиеся с другими участками последовательности. К таким структурам относятся двойные спирали, стеблевые петли и варианты «клеверного листа», встречающиеся, например, в транспортной РНК. Эти методы основаны на заданных расчетных параметрах, оценивающих свободную энергию спаривания определенных типов пар оснований, включая Уотсона-Криковские и Хугстиновские пары . В зависимости от сложности метода, одиночные пары оснований могут рассматриваться так же, как и короткие сегменты из двух-трех пар оснований для учёта эффекта стекинг-взаимодействий. Без существенных алгоритмических модификаций, требующих чрезвычайно больших вычислительных затрат, эти методы не могут определить псевдоузлы .
Точность предсказания вторичной структуры единичной молекулы РНК путём минимизации свободной энергии ограничивается несколькими факторами:
По этой причине способ предсказания вторичных структур с похожим низким значением свободной энергии может дать существенную информацию. Такие структуры называются субоптимальными. MFOLD — одна из программ, генерирующих субоптимальные структуры .
Одной из проблем предсказания вторичной структуры РНК является то, что стандартные методы минимизации свободной энергии и статистические методы не могут выявить псевдоузлы . Этот недостаток объясняется тем, что обычные алгоритмы динамического программирования рассматривают только взаимодействия между ближайшими нуклеотидами, в то время как псевдоузлы образуются в результате взаимодействия между удаленными нуклеотидами. Ривас и Эдди опубликовали алгоритм динамического программирования для прогнозирования псевдоузлов . Однако этот алгоритм динамического программирования осуществляется очень медленно. Время работы стандартного алгоритма динамического программирования для минимизации свободной энергии составляет O (N 3 ) (N — число нуклеотидов в последовательности), а алгоритм Риваса и Эдди требует O (N 6 ) по времени. Это побудило исследователей к реализации версии алгоритма, которая ограничивает классы псевдоузлов, позволяя сэкономить время. Например, pknotsRG, включающий в себя только класс простых рекурсивных псевдоузлов, требует O (N 4 ) операций .
Другим подходом для предсказания вторичной структуры РНК является определение укладки с помощью ансамбля Больцмана , например, в программе SFOLD. Данная программа генерирует статистическую выборку всех возможных вторичных структур РНК. Алгоритм отбирает вторичные структуры в соответствии с распределением Больцмана . Подобный метод отбора предлагает хорошее решение проблемы неопределенности в укладке .
Ковариантные модели основаны на существовании семейств родственных РНК, имеющих не только общую вторичную структуру, но и некоторые общие мотивы в последовательностях. Эти методы анализируют ковариацию отдельных сайтов оснований в ходе эволюции; сохранение двух довольно удаленных друг от друга нуклеотидов указывает на наличие структурно необходимой водородной связи между ними. Было показано, что проблема предсказания псевдоузлов является NP-полной задачей
Проблема выравнивания и предсказания консенсусной структуры тесно связаны. Можно выделить три различных подхода к предсказанию консенсусных структур :
Данный подход заключается в построении множественного выравнивания последовательностей РНК, нахождении консенсусной последовательности , а затем её укладке. Качество выравнивания определяет точность консенсусной структурной модели. Консенсусная последовательность укладывается с использованием различных подходов, таких же, как и для предсказания вторичной структуры единичных молекул РНК. Подход, использующий термодинамическую укладку использует, например, программа RNAalifold . Различные подходы используют программы Pfold и ILM. Программа Pfold реализует стохастические контекстно-свободные грамматики (СКСГ) . ILM (iterated loop matching), в отличие от других алгоритмов укладки выравнивания, может восстанавливать псевдоузлы. Он использует сочетание термодинамики и оценки соответствующего информационного содержания .
Эволюция часто сохраняет функциональную структуру РНК лучше, чем её последовательность . Таким образом, задача заключается в создании общей структуры для двух или более высоко дивергентных, но гомологичных последовательностей РНК. На практике выравнивания последовательностей становятся непригодными и не помогают повысить точность предсказания структуры, когда сходство двух последовательностей составляет менее 50 % .
Программы на основе структурных выравниваний повышают производительность этих методов, большинство из которых являются вариантами алгоритма Sankoff . В принципе, алгоритм Sankoff представляет собой объединение алгоритмов выравнивания последовательностей и Nussinov , который ищет максимальный участок спаривания с помощью динамического программирования . Алгоритм Sankoff сам по себе является теоретическим, поскольку требует очень больших вычислительных ресурсов (время работы O (n3m) и O (n2m) памяти, где N — длина последовательности, m — число последовательностей). Однако существуют некоторые попытки реализации ограниченных версий алгоритма Sankoff. К ним относятся, например, Foldalign , Dynalign , PMmulti/PMcomp , Stemloc и Murlet . В этих реализациях ограничены максимальная длина выравнивания или количество возможных вариантов консенсусной структуры. Так, Foldalign строит локальные выравнивания и ограничивает возможную длину выравнивания последовательностей.
Выравнивание предсказанных структур применяется менее широко. Данный подход использует структуры, предсказанные для одиночных молекул РНК. Он выравнивает их с использованием деревьев . Основная слабость такого подхода заключается в том, что предсказания одной последовательности часто неточны, таким образом, нарушается точность всего дальнейшего анализа.