Машина для уничтожения крепостей «Обой»
- 1 year ago
- 0
- 0
TopHat — программное обеспечение из области биоинформатики , которое выравнивает полученные в результате РНК-секвенирования фрагменты последовательностей РНК — прочтения («риды») — на геном и определяет границы экзонов . TopHat основан на алгоритме , который картирует короткие прочтения . Программа может определять не только известные соединения экзонов, но и идентифицировать новые .
C выпуском последней версии TopHat 23 февраля 2016 разработчики прекратили активно поддерживать проект и предлагают как альтернативу программу , обладающую теми же основными возможностями, но способную выполнять задачу выравнивания прочтений и определения экзон-экзонных соединений быстрее, эффективнее и точнее .
TopHat выравнивает прочтения на геном и самостоятельно находит границы сплайсированных экзонов, не нуждаясь в , то есть выполняет выравнивания ab initio . Однако, если аннотация генома существует, TopHat использует её: строит базу возможных границ экзонов и выравнивает прочтения на геном соответственно этой информации .
Если аннотация генома отсутствует, то TopHat сначала определяет целые экзоны , то есть находящиеся в границах одного прочтения, используя алгоритм . Bowtie индексирует и определяет позиции прочтений в референсном геноме , используя технику сжатия данных — преобразование Барроуза — Уилера .
На первом этапе работы программы осуществляется картирование всех прочтений на при помощи Bowtie. Прочтения, которые на этом шаге не удалось картировать, обозначаются как «начально некартированные» прочтения («initially unmapped reads», IUM или ННК), и они остаются в стороне. Также исключаются из дальнейшей работы прочтения, которые ложатся на несколько участков генома (по умолчанию, больше 10) .
Далее TopHat, используя модуль сборки программного обеспечения . Дата обращения: 7 мая 2014. 3 марта 2009 года. , формирует из картированных прочтений «островки» — области генома с расшифрованной по картированным прочтениям консенсусной последовательностью. TopHat считает координаты этих «островков» координатами «истинных» экзонов . Если «островок» имеет низкое покрытие, то при сборке предсказание последовательности в нём может быть ошибочным и выдавать неверные основания. Поэтому TopHat использует при предсказании нуклеотидов в таких участках, заменяя спорные основания на соответствующие основания из референса, в итоге последовательности таких «островков» оказываются псевдоконсенсусами [ неизвестный термин ] . На краях «островка» могут находиться сайты соединения экзонов после сплайсинга, при этом на концах псевдоконсенсусов отсутствует часть последовательности из-за покрытия малым числом прочтений. Чтобы восстановить эти последовательности вместе с донорными и акцепторными сайтами фланкирующих интронов , TopHat добавляет к концам псевдоконсенсуса каждого «островка» последовательности из референсного генома (по 45 оснований, по умолчанию) .
Если ген характеризуется низкой экспрессией , то соответствующий такому гену «островок» тоже имеет низкое покрытие. В его последовательности возникают гэпы, и один экзон дробится на несколько. Поэтому если расстояние между предсказанными экзонами меньше, чем 6 пар оснований, TopHat объединяет эти экзоны в один .
TopHat идентифицирует все канонические сайты доноров и акцепторов (динуклеотиды «GT-AG», «GC-AG» и «AT-AC») внутри «островков» (в обратных цепях тоже). Затем алгоритм рассматривает те пары сайтов донор-акцептор соседних, но не обязательно ближайших друг к другу, «островков», между которыми можно найти последовательности потенциальных канонических интронов. Далее TopHat ищет среди ННК прочтений те, которые охватывают места стыка экзона и интрона, и картирует их по принципу seed-and-extend. По умолчанию программа рассматривает потенциальные интроны длиной от 70 до 20 000 нуклеотидов .
Для того чтобы уменьшить время работы алгоритма часто снижают максимальную длину потенциального интрона . Чтобы увеличить чувствительность и уменьшить число ложноположительных результатов, программа исключает пары донорных и акцепторных сайтов, находящиеся внутри одного «островка». Но бывают такие случаи, что в пределах одного «островка» происходит соединение двух экзонов. Например, в случае гена , который имеет два альтернативных транскрипта , причем один из них содержит интрон, наложенный на 5'-нетранслируемую область другого транскрипта . Оба транскрипта присутствуют в образце для секвенирования, и TopHat отмечает их как единый «островок». Чтобы детектировать такие границы экзонов без снижения времени работы и специфичности, имеет смысл искать интроны только в пределах глубоко покрытых «островков» .
В ходе алгоритма для каждого «островка», лежащего в координатах , TopHat рассчитывает статистику , которая соответствует глубине покрытия этого «островка»:
где — это глубина покрытия прочтениями в координате в карте программы Bowtie, — длина референсного генома.
Если нормализовать значение , так чтобы оно лежало в пределах [0; 1000], то при (по умолчанию) TopHat будет искать в этом «островке» границы экзонов. Чем выше это значение, тем быстрее работает программа .
Дальше программа ищет среди ННК множества прочтения, которые покрывают границы экзонов при помощи стратегии seed-and-extend. Алгоритм индексирует ННК прочтения и среди них находит такие, участки которых полностью совпадают с k позициями с каждой стороны от границы экзона (5, по умолчанию). Этот фрагмент прочтения длиной 10 нуклеотидов называется «зерно» («seed»), на рисунке показан темно-серым прямоугольником. Если в НКК прочтении находится «зерно», TopHat выравнивает последовательности дальше вправо и влево от «зерна». Серым на рисунке обозначены области, в которых TopHat может позволять определённое пользователем число несовпадений .
Алгоритм выводит все выравнивания , которые у него получаются, и строит на их основе набор сайтов сплайсинга . Но, при этом, учитывается, что существует множество минорных альтернативных вариантов сплайсинга, поэтому часть предположительных границ экзонов просто не выводится алгоритмом во избежание ложноположительных результатов. Это достигается за счет различной оценки числа прочтений, покрывающих правую и левую границу экзонов: если покрытие хотя бы одной границы прочтениями < 15 %, то такое соединение не выводится .
TopHat-Fusion — это алгоритм, разработанный для определения транскриптов , которые получаются в результате слияния генов при разрыве или объединении двух различных хромосом , или при перестройках внутри одной хромосомы. Эта программа является усовершенствованной TopHat и не зависит от , поэтому TopHat-Fusion может обнаружить транскрипты, полученные при объединении известных генов, неизвестных генов и неаннотированных вариантов сплайсинга известных генов. TopHat-Fusion является бесплатным сервисом и доступен на сайте . Дата обращения: 20 апреля 2017. 3 мая 2017 года.
В алгоритм TopHat-Fusion были внесены некоторые изменения, чтобы поиск транскриптов стал возможен: после картирования всех прочтений и отделения «начально некартированных», программа делит каждое прочтение на части по 25 пар оснований или длиннее. Например, прочтение длиной 80 пар оснований алгоритм разделит на фрагменты длиной 25, 25 и 30. После чего происходит картирование фрагментов длиной 25 пар оснований относительно генома при помощи . Если транскрипт нормальный, это значит, что выровненные с геномом сегменты могут быть разделены интроном установленной пользователем длины и находиться в одной ориентации на хромосоме. В случае же транскриптов слитных генов TopHat-Fusion снимает эти ограничения, позволяя детектировать объединения генов на разных хромосомах .
На следующем этапе происходит отбор прочтений, являющихся кандидатами на случай слияния генов, но при этом выровненных во многих местах генома . Делается предположение, что такие множественные случаи выравнивания прочтения с геномом являются артефактами. Но есть и случаи нескольких копий слитных генов в геноме, поэтому устанавливается параметр М (2, по умолчанию), согласно которому происходит отбор прочтений: если M > 2, прочтения алгоритмом отбрасываются .
Дополнительно вносится требование: необходимо иметь участок длиной как минимум 13 совпадающих пар оснований с обеих сторон от точки слияния генов, содержащий не более двух несовпадений. Причем участки с разных сторон от точки слияния генов должны: 1) принадлежать различным хромосомам, 2) принадлежать одной хромосоме, но находиться на расстоянии не менее 100 000 пар оснований — минимальное расстояние при хромосомных перестройках . Благодаря этим условиям, алгоритмом отбрасывается большинство прочтений .
Как было сказано выше, TopHat делит ННК прочтения на сегменты, причем крайние могут быть картированы на различных хромосомах. Далее алгоритм использует сегменты для нахождения точки слияния. После нахождения примерной позиции, происходит повторное выравнивание сегментов от границ справа и слева на начальной ДНК по направлению к точке слияния. Алгоритм получает участки длиной 22 пары оснований (с обеих сторон — 44), фланкирующие точку слияния генов, и индексирует при помощи Bowtie, что впоследствии выравнивается с сегментами всех ННК прочтений. Выбирается лучшее выравнивание для каждого прочтения с использованием эвристической функции взвешивания , которая предусматривает штрафы за продление интронов (-2), делеций или вставок (-4) или слияний (-4). Если в итоге, с учетом штрафов, получается больше одного выравнивания с одинаковым минимальным весом, выбирается выравнивание с меньшим числом несовпадений .
TopHat2 — улучшенная версия TopHat, позволяющая выравнивать прочтения различной длины и разрешающая вставки и делеции различной длины в соответствии с референсным геномом. Программа может выравнивать прочтения при разрыве гена, вызванного геномными транслокациями . Алгоритм совмещает способность определять новые сайты сплайсинга со способностью картировать прочтения относительно известных транскриптов . TopHat2 доступен на сайте . Дата обращения: 14 апреля 2017. 30 апреля 2017 года.
Одной из задач при улучшении алгоритма являлось то обстоятельство, что если прочтение покрывает целый экзон и часть следующего экзона, то TopHat мог выровнять это прочтение только с первым экзоном. Вторая проблема заключается в том, что прочтения процессированных функциональных мРНК могут быть неверно картированы алгоритмом на участки неактивных псевдогенов .
В случае, если есть известный транскриптом , TopHat2 картирует прочтения на нём, что повышает чувствительность и в общем улучшает картирование . Это также значительно снижает время работы алгоритма, так как размер транскриптома значительно меньше размера генома . Некартированные прочтения, для которых нет или которые имеют плохие выравнивания, TopHat2 выравнивает с геномом. Все прочтения, совпадающие с экзонами будут картированы .
При помощи ННК прочтений алгоритм находит новые канонические сайты сплайсинга . TopHat2 может повторно картировать прочтения. Чтобы это стало возможным, некартированные прочтения разделяются на сегменты (аналогичным TopHat-Fusion способом) и выравниваются с геномом. Таким образом детектируются случаи и наличие интронов, после чего TopHat2 повторно выравнивает, но уже целую последовательность прочтения, с участками генома, чтобы найти сайты сплайсинга. Используя похожий подход, в прочтениях детектируются вставки и делеции .
На конечном этапе алгоритм разделяет прочтения на 2 группы: 1) имеющие единичное выравнивание, 2) имеющие несколько выравниваний. Во втором случае, TopHat2 собирает статистическую информацию о местах соединений экзонов, вставках, делециях, которая позволяет пересчитать вес выравнивания для каждого прочтения. Основываясь на таких улучшенных весах, TopHat2 выводит только лучшие выравнивания при нескольких находках для одного прочтения в геноме .