Interested Article - Поиск сайтов связывания транскрипционных факторов in silico

Поиск сайтов связывания транскрипционных факторов in silico — поиск и предсказание сайтов связывания факторов транскрипции в последовательности нуклеотидов ДНК при помощи компьютерных алгоритмов . Сайты связывания представляют собой короткие сегменты ДНК, длиной от 8—10 до 16—20 пар оснований , имеющие высокое сродство к факторам транскрипции. Эти короткие последовательности ДНК называются мотивами . Аналогично при помощи компьютерных алгоритмов ищутся сайты связывания кофакторов, полимераз , сайты сплайсинга и повторяющиеся элементы в ДНК. Обнаружение мотивов позволяет лучше понять регуляцию транскрипции , сплайсинг мРНК и образование белковых комплексов.

Способы представления мотивов

Консенсус

Одним из популярных способов представления мотива является консенсус — слово, составленное из обозначений нуклеотидов, наиболее часто встречающихся в конкретных позициях сайта. Для записи консенсуса могут использоваться обозначения нуклеотидов в соответствии с номенклатурой ИЮПАК .

Например, для последовательностей вида:

TACGAT
TATAAT
TATAAT
GATACT
TATGAT
TATGTT

консенсус ИЮПАК будет выглядеть следующим образом:

TATRNT

Когда консенсус нестрогий, представление мотива может включать в себя экземпляры с очень низкой аффинностью связывания. С другой стороны, очень строгий консенсус может не охватить все реально существующие вариации мотива .

Позиционная весовая матрица (ПВМ)

Вторым наиболее популярным методом является использование позиционной весовой матрицы (ПВМ). ПВМ построена на основе частот единичных нуклеотидов (A, T, G, C). Использование ПВМ позволяет отличить сильные сайты связывания от слабых сайтов связывания, но возникает проблема отделения слабых мотивов от фона. Недостатком также является то, что ПВМ не учитывает взаимосвязи позиций внутри мотива (позиции считают независимыми друг от друга). Однако существует динуклеотидная ПВМ, использующая 16-буквенный алфавит (AA, AC, AT, …..., CG, GG). Использование динуклеотидных ПВМ позволяет учитывать взаимосвязи между соседними нуклеотидами . Эта модель реализована в методах обнаружения мотивов Dimont и diChIPMunk .

Методы контролируемой классификации

Модели, использующие байесовские сети , позволяют установить зависимости между позициями внутри мотива, однако не существует простого способа визуализировать эти мотивы. Существуют также методы построения мотивов с использованием графов (например, скрытые марковские модели ) или с использованием метода опорных векторов . Подобные методы позволяют искать мотивы со спейсерами — участками вариабельной длины между двумя полусайтами двойных мотивов (каждый полусайт представляет собой участок посадки одной из субъединиц димера транскрипционного фактора) .

Основные задачи

В анализе геномных последовательностей при поиске мотивов выделяют две ключевые задачи :

Идентификация в наборе последовательностей ДНК уже известных мотивов из баз данных;
Обнаружение неизвестных мотивов de novo . Задача актуальна, когда есть набор промоторных последовательностей с предполагаемым общим транскрипционным фактором, но сам фактор транскрипции или сайты связывания для фактора транскрипции неизвестны.

Поиск мотивов на основе уже известных

Сканирование набора последовательностей против известных мотивов помогает идентифицировать совместно регулирующиеся гены с общими факторами транскрипции или оценить влияние мутаций в последовательности мотива на связывание с транскрипционным фактором .

Информация о сайте связывания транскрипционных факторов в последовательностях ДНК получается экспериментально такими методами, как SELEX , РВМ (protein binding microarrays) или -х (то есть, ChIP-seq , ChIP-exo , ORGANIC , ChIP-on-chip . Полученные в результате экcпериментов последовательности сайтов связывания описываются моделью (мотивом). На данный момент уже известно много мотивов, собранных в различные базы данных. Каждое обнаруженное в последовательности ДНК совпадение с последовательностью мотива из базы данных именуется экземпляром мотива (хитом) или словом .

Сложности в идентификации мотивов :

Точная последовательность мотива может быть неизвестна, так как в ней могут происходить мутации;
В интересующей последовательности может находиться несколько мотивов (например, сайт связывания транскрипционного фактора и сайт связывания его кофактора), или только один мотив, или же, наоборот, ни одного;
Мотивы могут перекрываться ;
Неизвестно, где находится мотив относительно точки старта транскрипции;
Необходимы критерии для отделения настоящих мотивов от шума.

На данный момент существует множество подходов для поиска мотивов. Каждый метод имеет свои ограничения и какого-либо универсального алгоритма не существует. Лучшим решением для предсказания мотивов считается использование комбинированных подходов.

Поиск мотивов de novo

Когда позиционная весовая матрица (ПВМ) сайта связывания интересующего фактора транскрипции неизвестна, она может быть получена путем обнаружения мотивов de novo из набора последовательностей ДНК, содержащих сайты связывания этого фактора транскрипции. Методика состоит в определении наиболее перепредставленных (т.е. встречающихся чаще, чем можно ожидать случайно) мотивов в данном наборе последовательностей ДНК. Существует большое количество de novo методов обнаружения перепредставленных мотивов. Несколько методов были созданы для анализа больших наборов последовательностей в результате ChIP-seq экспериментов: HMS , cERMIT , ChIPMunk , diChIPMunk , MEME-ChIP , POSMO , XXmotif , FMotif , Dimont , RSAT , and DeepBind . Проверка обнаруженных сайтов связывания транскрипционного фактора может быть осуществлена с использованием комбинации иммунопреципитации хроматина с антителом , специфичным к интересующему фактору транскрипции, и полимеразной цепной реакции в реальном времени с праймерами , специфичными к предсказанному целевому региону .

Классификация алгоритмов

Алгоритмы можно классифицировать на основе исследуемых последовательностей и по принципу действия.

По набору исследуемых последовательностей

Алгоритмы поиска мотивов по типам входных данных можно разделить на три основных класса :

использующие промоторные последовательности совместно регулируемых генов из одного генома и поиск статистически перепредставленых мотивов;
использующие ортологичные промоторные последовательности одного гена у нескольких видов (т.е. ), например, PHYLONET , PhyloScan и PhyloCon ;
использующие комплексный подход, т.е. последовательности промоторов совместно регулируемых генов и филогенетический футпринтинг.

Более ранние алгоритмы используют промоторные последовательности совместно регулируемых генов из одного генома и поиск статистически перепредставленых мотивов. В настоящее время появляются алгоритмы для использования филогенетического футпринтинга или ортологичных последовательностей, а также разрабатывается комплексный подход, при котором используют промоторные последовательности совместно регулируемых генов и филогенетический футпринтинг .

По принципу действия

По принципу действия выделяют следующие :

методы, основанные на операциях со строками (словами), которые в основном полагаются на подсчет и сравнение частот олигонуклеотидов . К ним относятся методы, использующие суффиксные деревья , и методы на основе графов ;
вероятностные модели последовательности, где параметры модели оцениваются с использованием принципа максимального правдоподобия , байесовских сетей .

Такие методы k -мерного перечисления, как POSMO , cERMIT , и RSAT-peak-motifs , показывают очень конкурентоспособное время выполнения задачи на больших наборах данных ChIP-seq . Тем не менее, вероятностные подходы (например, ChIPMunk , Dimont ) могут обеспечить большую точность результатов .

Строковые методы

Строковые методы подсчитывают количество совпадений в последовательности всех возможных мотивов, представленных регулярными выражениями , и вычисляют, какие из них встречаются чаще. Строковые методы подходят для поиска коротких эукариотических мотивов, которые обычно короче, чем у прокариот и для поиска очень консервативных последовательностей . Время работы этих алгоритмов экспоненциально растет с длиной искомого мотива, однако они могут быть достаточно быстры, если реализованы с помощью структур оптимизированных данных, таких как деревья суффиксов (алгоритмы Weeder и MITRA (Mismatch Tree Algorithm ) или графы (алгоритм WINNOWER ). Плюсом является также то, что строковые методы находят глобальный оптимум, поскольку перебирают все подстроки в исследуемых последовательностях. Однако типичные мотивы транскрипционных факторов часто имеют слабо консервативные позиции. Недостатком методов также является нахождение большого количества ложных мотивов .

В данном типе методов можно выделить несколько классов :

Полное перечисление;
Кластерные методы;
Методы, основанные на использовании деревьев ;
Методы, основанные на использовании графов;
Методы, использующие хэширование ;
Методы фиксированных кандидатов.

Вероятностный подход

Вероятностный подход предполагает представление модели мотива с помощью позиционной весовой матрицы (ПВМ). Вероятностные методы подходят для поиска более длинных мотивов как для прокариот, так и для эукариот. Эти алгоритмы, в отличие от алгоритмов строкового метода, не ищут оптимальное глобальное решение и используют локальные методы поиска, такие как :

Сэмплирование по Гиббсу (AlignACE , ANN-Spec , BioProspector , MotifSampler , GLAM , SeSiMCMC , PhyloGibbs , GibbsST );

Принцип максимального правдоподобия ( MEME , MEME-ChIP , LOGOS , Improbizer , PhyME , OrthoMEME , GIMF );

Жадный алгоритм (ChIPmunk и diChIPMunk ).

Эти алгоритмы также можно разделить на несколько классов :

Детерминистические методы, основанные на принципе максимального правдоподобия ( MEME , STEME , EXTREME )
Стохастические методы, основанные на сэмплировании по Гиббсу (AlignACE , BioProspector )
Байесовские методы (LOGOS )

Подходы, основанные на природных механизмах

Генетический алгоритм , муравьиный алгоритм , методы роя частиц , алгоритм пчелиной колонии , алгоритм кукушки также применяются для оптимизации поиска мотивов .

Алгоритмы поиска мотивов
Подход	Принцип поиска	Примеры
Строковый	Деревья суффиксов	SMILE , Verbumculus
Строковый	Деревья префиксов/Графы	MITRA
Строковый	Графы	WINNOWER
Строковый	Полное перечисление	YMF , Oligo-Analysis , Weeder
Строковый	Словарь	MobyDick , WordSpy
Вероятностный	Сэмплирование по Гиббсу	SeSiMCMC
Вероятностный	Принцип максимального правдоподобия	MEME , PhyME
Вероятностный	Жадный алгоритм	ChIPMunk , MDScan
Филогенетический футпринтинг	Выравнивание последовательностей	PHYLONET
Прочие	Генетический алгоритм , Кластеризация	GAME , FMGA , EMD

Инструменты поиска

The MEME Suite — программный пакет инструментов с единым веб-интерфейсом для поиска и анализа мотивов в ДНК, РНК и белковых последовательностях, также существует локальная версия (не все инструменты доступны в виде веб-сервисов). MEME использует вероятностную и дискретную модели для поиска безделеционных мотивов и не предназначен для поиска мотивов в больших наборах данных. Алгоритм GLAM2 (Gapped Local Alignment of Motifs) позволяет учитывать вставки и делеции в мотивах.

Для анализа данных ChIP-seq и других больших наборов данных предназначен MEME-ChIP. Он включает два взаимодополняющих алгоритма обнаружения мотивов MEME и DREME, и использует обнаруженые мотивы для последующей визуализации, анализа аффинности связывания, анализа обогащения мотивов с использованием алгоритма AME, который позволяет обнаруживать очень низкие уровни обогащения сайтов связывания транскрипционных факторов с известными связывающими ДНК мотивами . MEME, MEME-ChIP, GLAM2 имеют три выходных формата: HTML, XML и текст .

ChIPMunk — быстрый эвристический инструмент обнаружения ДНК мотивов в данных ChIP-seq , который использует жадный подход в сочетании с бутстреппингом . ChIPMunk оценивает качество мотива с помощью дискретного информационного содержания Кульбака (Kullback discrete information content, KDIC; Kullback Dinucleotide Discrete Information Content, KDDIC — для динуклеотидной версии). ChIPMunk реализован в Java (1.6 или выше) и эффективно обрабатывает большие наборы последовательностей на современном настольном компьютере или ноутбуке .

Лого динуклеотидной ПВМ, созданное скриптами для diChIPMunk

ChIPMunk итеративно ищет безделеционное множественное локальное выравнивание с наивысшим KDIC. Оптимальное выравнивание строится с помощью итерационной оптимизации стартовых позиционных весовых матриц , которые либо генерируются случайным образом (по умолчанию) или являются производными от данного пользователем набора последовательностей. На каждом итеративном шаге ChIPMunk ищет лучшие хиты ПВМ во всех последовательностях и переоценивает ПВМ, исходя из лучших хитов. Для выбора оптимальной длины выравнивания в заданном диапазоне длин алгоритм перебирает их, начиная с наибольшей, и останавливается тогда, когда находит так называемый сильный мотив. Динуклеотидная версия алгоритма diChIPMunk, использует динуклеотидный алфавит из 16 букв и учитывает зависимость между соседними нуклеотидами в мотиве .

ChIPMunk и diChIPMunk также поддерживают применение профилей покрытия чтений (.wig файлы) в качестве априорных значений для местоположений мотивов, улучшая качество полученных мотивов .

Dimont — общий подход для вероятностного дифференциального обнаружения мотивов de novo , который способен обрабатывать данные экспериментов ChIP-seq , ChIP-exo и PBM ( белковых микрочипов ). Dimont также может использовать динуклеотидные последовательности для построения ПВМ и учитывать информацию о высоте пика. Dimont реализует подход, который позволяет придерживаться вероятностных методов с использованием популярной модели «ноль или одно совпадение в последовательности» многих инструментов de novo обнаружения мотивов при достижении приемлемого времени работы .

Анализ найденных мотивов

Также существуют различные инструменты для сравнения найденных мотивов с известными мотивами из баз данных, например TOMTOM из , MACRO-APE и STAMP.

TOMTOM определяет количественное сходство между двумя мотивами и оценивает его статистическую значимость. TOMTOM выводит лого, представляющее выравнивание двух мотивов, р-значение и q-значение [мера ложных обнаружений], а также ссылки на базу данных мотивов для более подробной информации о целевом мотиве .

MACRO-APE позволяет вычислять коэффициент сходства Жаккара для пары ПВМ с заданными пороговыми значениями. Программа позволяет сканировать коллекцию известных матриц в поиске сходства с интересующей ПВМ при заданном пороге или уровне P-значения . Наряду с этими инструментами, MACRO-APE предоставляет базовые утилиты для оценки порогового значения ПВМ для заданного P-значения и наоборот .

Ссылки

Базы данных мотивов

Существует несколько открытых и коммерческих баз данных ПВМ известных мотивов :

: экстенсивно расширяющаяся и обновляющаяся база данных с открытым доступом. Коллекция JASPAR CORE содержит курируемый, не избыточный набор профилей связывания транскрипционных факторов .
: коммерческая база данных сайтов связывания транскрипционных факторов, ПВМ, и регулируемых генов эукариот.
: база экспериментальных данных, полученных в результате экспериментов с использованием технологии белок-связывающих микрочипов (PBM). .
: база данных полногеномных аннотаций регуляторных участков .
: база данных сайтов связывания транскрипционных факторов для Drosophila .
: расширяющаяся и совершенствующаяся коллекция сайтов связывания транскрипционных факторов человека и мыши. Содержит мононуклеотидные и динуклеотидные ПВМ .
: обобщенная база данных мотивов из HOCOMOCO, JASPAR, и других баз данных .

Веб-сайты и программы для поиска мотивов и промотерного анализа

AME или FIMO из
SeqPos из
PWMScan из
— требует загрузки программы; можно найти пары совместно встречающихся мотивов; принимает перечень генов в качестве входных данных
— принимает файлы расширения .BED или имена генов; когда даны имена генов, поиск мотива выполняется в окне 20 Kb вокруг точек старта транскрипции генов
— требует список генов и предлагает на выбор 5 интервалов длин промоторов
— онлайн-версия принимает не более 200 последовательностей в формате FASTA
— принимает последовательности в формате FASTA; порог ПВМ должен быть выбран пользователем
— принимает как последовательности в формате списка генов, так и в формате FASTA
— алгоритм поиска мотивов TRANSFAC®
— принимает мотивы в формате перечня
Clover — офлайн-инструмент для анализа промоутеров.

Программы для сравнения мотивов с известными ПВМ

ol из the MEME Suite

Примечания

↑ Boeva V. от 3 июня 2016 на Wayback Machine . Frontiers in Genetics. 2016;7:24. doi:10.3389/fgene.2016.00024.
↑ Tran, N. T. L., and Huang, C.-H. (2014). от 8 апреля 2016 на Wayback Machine . Biol. Direct 9:4. doi: 10.1186/1745-6150-9-4
↑ Das MK, Dai H-K. BMC Bioinformatics. 2007;8(Suppl 7):S21. doi:10.1186/1471-2105-8-S7-S21.
↑ Jan Grau, Stefan Posch, Ivo Grosse, Jens Keilwagen. // Nucleic Acids Research. — 2013-09-19. — Т. 41 , вып. 21 . — С. e197–e197 . — ISSN . — doi : .
Michael F Berger, Martha L Bulyk. // Nature Protocols. — 2009-03. — Т. 4 , вып. 3 . — С. 393–411 . — ISSN . — doi : .
Sivakanthan Kasinathan, Steven Henikoff. // Epigenetics & Chromatin. — 2013-03. — Т. 6 , вып. S1 . — ISSN . — doi : .
Jie Wang, Jiali Zhuang, Sowmya Iyer, Xin Lin, Troy W. Whitfield. // Journal of Biomolecular Structure and Dynamics. — 2013-01. — Т. 31 , вып. sup1 . — С. 49–50 . — ISSN . — doi : .
↑ Hu, Ming Yu, Jindan Taylor, Jeremy M. G. Chinnaiyan, Arul M. Qin, Zhaohui S. . — Oxford University Press.
↑ Stoyan Georgiev, Alan P Boyle, Karthik Jayasurya, Xuan Ding, Sayan Mukherjee. // Genome Biology. — 2010. — Т. 11 , вып. 2 . — С. R19 . — ISSN . — doi : .
↑ I. V. Kulakovskiy, V. A. Boeva, A. V. Favorov, V. J. Makeev. // Bioinformatics. — 2010-10-15. — Т. 26 , вып. 20 . — С. 2622–2623 . — ISSN . — doi : .
Philip Machanick, Timothy L. Bailey. // Bioinformatics. — 2011-04-12. — Т. 27 , вып. 12 . — С. 1696–1697 . — ISSN . — doi : .
↑ Loi Sy Ho, Jagath C. Rajapakse. // Pattern Recognition in Bioinformatics. — Berlin, Heidelberg: Springer Berlin Heidelberg, 2006. — С. 23–31 . — ISBN 978-3-540-37446-6 , 978-3-540-37447-3 .
H. Hartmann, E. W. Guthohrlein, M. Siebert, S. Luehr, J. Soding. // Genome Research. — 2012-09-18. — Т. 23 , вып. 1 . — С. 181–194 . — ISSN . — doi : .
Caiyan Jia, Matthew B. Carson, Yang Wang, Youfang Lin, Hui Lu. // PLoS ONE. — 2014-01-24. — Т. 9 , вып. 1 . — С. e86044 . — ISSN . — doi : .
Michael Barnes, David Watson. Faculty Opinions – Post-Publication Peer Review of the Biomedical Literature (9 мая 2017). Дата обращения: 11 мая 2020.
T. Wang, G. D. Stormo. // Proceedings of the National Academy of Sciences. — 2005-11-21. — Т. 102 , вып. 48 . — С. 17400–17405 . — ISSN . — doi : .
Carmack, C Steven McCue, Lee Ann Newberg, Lee A Lawrence, Charles E. . — BioMed Central.
T. Wang, G. D. Stormo. // Bioinformatics. — 2003-12-10. — Т. 19 , вып. 18 . — С. 2369–2380 . — ISSN . — doi : .
Xiaotu Ma, Ashwinikumar Kulkarni, Zhihua Zhang, Zhenyu Xuan, Robert Serfling. // Nucleic Acids Research. — 2011-01-06. — Т. 40 , вып. 7 . — С. e50–e50 . — ISSN . — doi : .
M. Thomas-Chollier, O. Sand, J.-V. Turatsinze, R. Janky, M. Defrance. // Nucleic Acids Research. — 2008-05-19. — Т. 36 , вып. Web Server . — С. W119–W127 . — ISSN . — doi : .
↑ G. Pavesi, G. Mauri, G. Pesole. // Bioinformatics. — 2001-06-01. — Т. 17 , вып. Suppl 1 . — С. S207–S214 . — ISSN . — doi : .
↑ E. Eskin, P. A. Pevzner. // Bioinformatics. — 2002-07-01. — Т. 18 , вып. Suppl 1 . — С. S354–S363 . — ISSN . — doi : .
↑ P. A. Pevzner, S. H. Sze. // Proceedings. International Conference on Intelligent Systems for Molecular Biology. — 2000. — Т. 8 . — С. 269–278 . — ISSN .
Giancarlo, Raffaele. . — Springer, 2007. — ISBN 3-540-74125-9 , 978-3-540-74125-1.
↑ Fatma A. Hashim, Mai S. Mabrouk, Walid Al-Atabany. // Avicenna Journal of Medical Biotechnology. — 2019. — Т. 11 , вып. 2 . — С. 130–148 . — ISSN .
↑ Frederick P. Roth, Jason D. Hughes, Preston W. Estep, George M. Church. // Nature Biotechnology. — 1998-10. — Т. 16 , вып. 10 . — С. 939–945 . — ISSN . — doi : .
C. T. WORKMAN, G. D. STORMO. // Biocomputing 2000. — WORLD SCIENTIFIC, 1999-12. — ISBN 978-981-02-4188-9 , 978-981-4447-33-1 . — doi : .
X. LIU, D. L. BRUTLAG, J. S. LIU. // Biocomputing 2001. — WORLD SCIENTIFIC, 2000-12. — ISBN 978-981-02-4515-3 , 978-981-4447-36-2 . — doi : .
Gert Thijs, Kathleen Marchal, Magali Lescot, Stephane Rombauts, Bart De Moor. // Proceedings of the fifth annual international conference on Computational biology - RECOMB '01. — New York, New York, USA: ACM Press, 2001. — ISBN 1-58113-353-7 . — doi : .
M. C. Frith. // Nucleic Acids Research. — 2004-01-02. — Т. 32 , вып. 1 . — С. 189–200 . — ISSN . — doi : .
↑ A. V. Favorov, M. S. Gelfand, A. V. Gerasimova, D. A. Ravcheev, A. A. Mironov. // Bioinformatics. — 2005-02-22. — Т. 21 , вып. 10 . — С. 2240–2245 . — ISSN . — doi : .
Rahul Siddharthan, Eric D Siggia, Erik Jan van Nimwegen. // PLoS Computational Biology. — 2005. — Т. preprint , вып. 2005 . — С. e67 . — ISSN . — doi : .
Kazuhito Shida. // BMC Bioinformatics. — 2006-11-04. — Т. 7 , вып. 1 . — ISSN . — doi : .
Robert C McLeay, Timothy L Bailey. // BMC Bioinformatics. — 2010-04-01. — Т. 11 , вып. 1 . — ISSN . — doi : .
↑ Chao-Wen Huang, Wun-Shiun Lee, Sun-Yuan Hsieh. // IEEE/ACM Transactions on Computational Biology and Bioinformatics. — 2011-07. — Т. 8 , вып. 4 . — С. 959–975 . — ISSN . — doi : .
W. Ao. // Science. — 2004-09-17. — Т. 305 , вып. 5691 . — С. 1743–1746 . — ISSN . — doi : .
↑ Saurabh Sinha. // Comparative Genomics. — New Jersey: Humana Press. — С. 309–318 . — ISBN 1-59745-514-8 .
A. PRAKASH, M. BLANCHETTE, S. SINHA, M. TOMPA. // Biocomputing 2004. — WORLD SCIENTIFIC, 2003-12. — ISBN 978-981-238-598-7 , 978-981-270-485-6 . — doi : .
John A. Richards. // Optical Engineering. — 2002-01-01. — Т. 41 , вып. 1 . — С. 150 . — ISSN . — doi : .
John E. Reid, Lorenz Wernisch. // Nucleic Acids Research. — 2011-07-23. — Т. 39 , вып. 18 . — С. e126–e126 . — ISSN . — doi : .
Daniel Quang, Xiaohui Xie. // Bioinformatics. — 2014-02-14. — Т. 30 , вып. 12 . — С. 1667–1673 . — ISSN . — doi : .
Mai S. Mabrouk, Mohamed B. Abdelhalim, Ebtehal S. Elewa. // Neural Computing and Applications. — 2018-03-06. — Т. 30 , вып. 7 . — С. 2059–2069 . — ISSN . — doi : .
↑ Zhi Wei, Shane T. Jensen. // Bioinformatics (Oxford, England). — 2006-07-01. — Т. 22 , вып. 13 . — С. 1577–1584 . — ISSN . — doi : .
Nuno D. Mendes, Ana C. Casimiro, Pedro M. Santos, Isabel Sá-Correia, Arlindo L. Oliveira. // Bioinformatics (Oxford, England). — 2006-12-15. — Т. 22 , вып. 24 . — С. 2996–3002 . — ISSN . — doi : .
Laurent Marsan, Marie-France Sagot. // Proceedings of the fourth annual international conference on Computational molecular biology - RECOMB '00. — New York, New York, USA: ACM Press, 2000. — ISBN 1-58113-186-0 . — doi : .
Alberto Apostolico, Mary Ellen Bock, Stefano Lonardi. // Proceedings of the sixth annual international conference on Computational biology - RECOMB '02. — New York, New York, USA: ACM Press, 2002. — ISBN 1-58113-498-3 . — doi : .
S. Sinha. // Nucleic Acids Research. — 2003-07-01. — Т. 31 , вып. 13 . — С. 3586–3588 . — ISSN . — doi : .
J. van Helden, B. André, J. Collado-Vides. // Journal of Molecular Biology. — 1998-09. — Т. 281 , вып. 5 . — С. 827–842 . — ISSN . — doi : .
H. J. Bussemaker, H. Li, E. D. Siggia. // Proceedings of the National Academy of Sciences. — 2000-08-15. — Т. 97 , вып. 18 . — С. 10096–10100 . — ISSN . — doi : .
G. Wang, T. Yu, W. Zhang. // Nucleic Acids Research. — 2005-07-01. — Т. 33 , вып. Web Server . — С. W412–W416 . — ISSN . — doi : .
X. Shirley Liu, Douglas L. Brutlag, Jun S. Liu. // Nature Biotechnology. — 2002-07-08. — Т. 20 , вып. 8 . — С. 835–839 . — ISSN . — doi : .
Dingqiao Wen, Yun Yu, Jiafan Zhu, Luay Nakhleh. . dx.doi.org (22 декабря 2017). Дата обращения: 11 мая 2020.
F.F.M. Liu, J.J.P. Tsai, R.M. Chen, S.N. Chen, S.H. Shih. // Proceedings. Fourth IEEE Symposium on Bioinformatics and Bioengineering. — IEEE. — ISBN 0-7695-2173-8 . — doi : .
Hu, Jianjun Yang, Yifeng D Kihara, Daisuke. . — BioMed Central Ltd, 2006-07-13.
Martin C. Frith, Neil F. W. Saunders, Bostjan Kobe, Timothy L. Bailey. // PLoS Computational Biology. — 2008-05-09. — Т. 4 , вып. 5 . — С. e1000071 . — ISSN . — doi : .
Machanick P, Bailey TL. от 7 мая 2022 на Wayback Machine Bioinformatics. 2011;27(12):1696-1697. doi:10.1093/bioinformatics/btr189.
↑ Levitsky VG, Kulakovskiy IV, Ershov NI, et al. BMC Genomics. 2014;15(1):80. doi:10.1186/1471-2164-15-80.
Timothy L. Bailey, Mikael Bodén, Fabian A. Buske, Martin Frith, Charles E. Grant, Luca Clementi, Jingyuan Ren, Wilfred W. Li, William S. Noble от 27 апреля 2016 на Wayback Machine Nucleic Acids Research, 37:W202-W208, 2009.
Vorontsov, I. E., Kulakovskiy, I. V., and Makeev, V. J. (2013). от 1 июня 2016 на Wayback Machine Algorithms Mol. Biol. 8:23. doi: 10.1186/1748-7188-8-23
Mathelier, A., Fornes, O., Arenillas, D.J., Chen, C., Denay, G., Lee, J., Shi, W., Shyr, C., Tan, G., Worsley-Hunt, R., et al. (2015). Nucleic Acids Res. 2016 44: D110-D115.
Hume MA, Barrera LA, Gisselbrecht SS, Bulyk ML. Nucleic Acids Research 2014; doi: 10.1093/nar/gku1045.
Pachkov M, Balwierz PJ, Arnold P, Ozonov E, van Nimwegen E. от 19 февраля 2022 на Wayback Machine . Nucleic Acids Research. 2013;41(Database issue):D214-D220. doi:10.1093/nar/gks1145.
Zhu LJ, Christensen RG, Kazemian M, et al. Nucleic Acids Research. 2011;39(Database issue):D111-D117. doi:10.1093/nar/gkq858.
Kulakovskiy IV, Medvedeva YA, Schaefer U, et al. от 25 мая 2021 на Wayback Machine . Nucleic Acids Research. 2013;41(Database issue):D195-D202. doi:10.1093/nar/gks1089.
Sebastian A, Contreras-Moreira B. Bioinformatics 30, 258-65 (2014).

[boe2-1] Boeva V. от 3 июня 2016 на Wayback Machine . Frontiers in Genetics. 2016;7:24. doi:10.3389/fgene.2016.00024.

[autogenerated22-2] Tran, N. T. L., and Huang, C.-H. (2014). от 8 апреля 2016 на Wayback Machine . Biol. Direct 9:4. doi: 10.1186/1745-6150-9-4

[Das3-3] Das MK, Dai H-K. BMC Bioinformatics. 2007;8(Suppl 7):S21. doi:10.1186/1471-2105-8-S7-S21.

[:4-4] Jan Grau, Stefan Posch, Ivo Grosse, Jens Keilwagen. // Nucleic Acids Research. — 2013-09-19. — Т. 41 , вып. 21 . — С. e197–e197 . — ISSN . — doi : .

[5] Michael F Berger, Martha L Bulyk. // Nature Protocols. — 2009-03. — Т. 4 , вып. 3 . — С. 393–411 . — ISSN . — doi : .

[6] Sivakanthan Kasinathan, Steven Henikoff. // Epigenetics & Chromatin. — 2013-03. — Т. 6 , вып. S1 . — ISSN . — doi : .

[7] Jie Wang, Jiali Zhuang, Sowmya Iyer, Xin Lin, Troy W. Whitfield. // Journal of Biomolecular Structure and Dynamics. — 2013-01. — Т. 31 , вып. sup1 . — С. 49–50 . — ISSN . — doi : .

[:1-8] Hu, Ming Yu, Jindan Taylor, Jeremy M. G. Chinnaiyan, Arul M. Qin, Zhaohui S. . — Oxford University Press.

[:2-9] Stoyan Georgiev, Alan P Boyle, Karthik Jayasurya, Xuan Ding, Sayan Mukherjee. // Genome Biology. — 2010. — Т. 11 , вып. 2 . — С. R19 . — ISSN . — doi : .

[:3-10] I. V. Kulakovskiy, V. A. Boeva, A. V. Favorov, V. J. Makeev. // Bioinformatics. — 2010-10-15. — Т. 26 , вып. 20 . — С. 2622–2623 . — ISSN . — doi : .

[11] Philip Machanick, Timothy L. Bailey. // Bioinformatics. — 2011-04-12. — Т. 27 , вып. 12 . — С. 1696–1697 . — ISSN . — doi : .

[:5-12] Loi Sy Ho, Jagath C. Rajapakse. // Pattern Recognition in Bioinformatics. — Berlin, Heidelberg: Springer Berlin Heidelberg, 2006. — С. 23–31 . — ISBN 978-3-540-37446-6 , 978-3-540-37447-3 .

[13] H. Hartmann, E. W. Guthohrlein, M. Siebert, S. Luehr, J. Soding. // Genome Research. — 2012-09-18. — Т. 23 , вып. 1 . — С. 181–194 . — ISSN . — doi : .

[14] Caiyan Jia, Matthew B. Carson, Yang Wang, Youfang Lin, Hui Lu. // PLoS ONE. — 2014-01-24. — Т. 9 , вып. 1 . — С. e86044 . — ISSN . — doi : .

[15] Michael Barnes, David Watson. Faculty Opinions – Post-Publication Peer Review of the Biomedical Literature (9 мая 2017). Дата обращения: 11 мая 2020.

[16] T. Wang, G. D. Stormo. // Proceedings of the National Academy of Sciences. — 2005-11-21. — Т. 102 , вып. 48 . — С. 17400–17405 . — ISSN . — doi : .

[17] Carmack, C Steven McCue, Lee Ann Newberg, Lee A Lawrence, Charles E. . — BioMed Central.

[18] T. Wang, G. D. Stormo. // Bioinformatics. — 2003-12-10. — Т. 19 , вып. 18 . — С. 2369–2380 . — ISSN . — doi : .

[19] Xiaotu Ma, Ashwinikumar Kulkarni, Zhihua Zhang, Zhenyu Xuan, Robert Serfling. // Nucleic Acids Research. — 2011-01-06. — Т. 40 , вып. 7 . — С. e50–e50 . — ISSN . — doi : .

[20] M. Thomas-Chollier, O. Sand, J.-V. Turatsinze, R. Janky, M. Defrance. // Nucleic Acids Research. — 2008-05-19. — Т. 36 , вып. Web Server . — С. W119–W127 . — ISSN . — doi : .

[:6-21] G. Pavesi, G. Mauri, G. Pesole. // Bioinformatics. — 2001-06-01. — Т. 17 , вып. Suppl 1 . — С. S207–S214 . — ISSN . — doi : .

[:7-22] E. Eskin, P. A. Pevzner. // Bioinformatics. — 2002-07-01. — Т. 18 , вып. Suppl 1 . — С. S354–S363 . — ISSN . — doi : .

[:8-23] P. A. Pevzner, S. H. Sze. // Proceedings. International Conference on Intelligent Systems for Molecular Biology. — 2000. — Т. 8 . — С. 269–278 . — ISSN .

[24] Giancarlo, Raffaele. . — Springer, 2007. — ISBN 3-540-74125-9 , 978-3-540-74125-1.

[:0-25] Fatma A. Hashim, Mai S. Mabrouk, Walid Al-Atabany. // Avicenna Journal of Medical Biotechnology. — 2019. — Т. 11 , вып. 2 . — С. 130–148 . — ISSN .

[:9-26] Frederick P. Roth, Jason D. Hughes, Preston W. Estep, George M. Church. // Nature Biotechnology. — 1998-10. — Т. 16 , вып. 10 . — С. 939–945 . — ISSN . — doi : .

[27] C. T. WORKMAN, G. D. STORMO. // Biocomputing 2000. — WORLD SCIENTIFIC, 1999-12. — ISBN 978-981-02-4188-9 , 978-981-4447-33-1 . — doi : .

[28] X. LIU, D. L. BRUTLAG, J. S. LIU. // Biocomputing 2001. — WORLD SCIENTIFIC, 2000-12. — ISBN 978-981-02-4515-3 , 978-981-4447-36-2 . — doi : .

[29] Gert Thijs, Kathleen Marchal, Magali Lescot, Stephane Rombauts, Bart De Moor. // Proceedings of the fifth annual international conference on Computational biology - RECOMB '01. — New York, New York, USA: ACM Press, 2001. — ISBN 1-58113-353-7 . — doi : .

[30] M. C. Frith. // Nucleic Acids Research. — 2004-01-02. — Т. 32 , вып. 1 . — С. 189–200 . — ISSN . — doi : .

[:10-31] A. V. Favorov, M. S. Gelfand, A. V. Gerasimova, D. A. Ravcheev, A. A. Mironov. // Bioinformatics. — 2005-02-22. — Т. 21 , вып. 10 . — С. 2240–2245 . — ISSN . — doi : .

[32] Rahul Siddharthan, Eric D Siggia, Erik Jan van Nimwegen. // PLoS Computational Biology. — 2005. — Т. preprint , вып. 2005 . — С. e67 . — ISSN . — doi : .

[33] Kazuhito Shida. // BMC Bioinformatics. — 2006-11-04. — Т. 7 , вып. 1 . — ISSN . — doi : .

[34] Robert C McLeay, Timothy L Bailey. // BMC Bioinformatics. — 2010-04-01. — Т. 11 , вып. 1 . — ISSN . — doi : .

[:11-35] Chao-Wen Huang, Wun-Shiun Lee, Sun-Yuan Hsieh. // IEEE/ACM Transactions on Computational Biology and Bioinformatics. — 2011-07. — Т. 8 , вып. 4 . — С. 959–975 . — ISSN . — doi : .

[36] W. Ao. // Science. — 2004-09-17. — Т. 305 , вып. 5691 . — С. 1743–1746 . — ISSN . — doi : .

[:12-37] Saurabh Sinha. // Comparative Genomics. — New Jersey: Humana Press. — С. 309–318 . — ISBN 1-59745-514-8 .

[38] A. PRAKASH, M. BLANCHETTE, S. SINHA, M. TOMPA. // Biocomputing 2004. — WORLD SCIENTIFIC, 2003-12. — ISBN 978-981-238-598-7 , 978-981-270-485-6 . — doi : .

[39] John A. Richards. // Optical Engineering. — 2002-01-01. — Т. 41 , вып. 1 . — С. 150 . — ISSN . — doi : .

[40] John E. Reid, Lorenz Wernisch. // Nucleic Acids Research. — 2011-07-23. — Т. 39 , вып. 18 . — С. e126–e126 . — ISSN . — doi : .

[41] Daniel Quang, Xiaohui Xie. // Bioinformatics. — 2014-02-14. — Т. 30 , вып. 12 . — С. 1667–1673 . — ISSN . — doi : .

[42] Mai S. Mabrouk, Mohamed B. Abdelhalim, Ebtehal S. Elewa. // Neural Computing and Applications. — 2018-03-06. — Т. 30 , вып. 7 . — С. 2059–2069 . — ISSN . — doi : .

[:13-43] Zhi Wei, Shane T. Jensen. // Bioinformatics (Oxford, England). — 2006-07-01. — Т. 22 , вып. 13 . — С. 1577–1584 . — ISSN . — doi : .

[44] Nuno D. Mendes, Ana C. Casimiro, Pedro M. Santos, Isabel Sá-Correia, Arlindo L. Oliveira. // Bioinformatics (Oxford, England). — 2006-12-15. — Т. 22 , вып. 24 . — С. 2996–3002 . — ISSN . — doi : .

[45] Laurent Marsan, Marie-France Sagot. // Proceedings of the fourth annual international conference on Computational molecular biology - RECOMB '00. — New York, New York, USA: ACM Press, 2000. — ISBN 1-58113-186-0 . — doi : .

[46] Alberto Apostolico, Mary Ellen Bock, Stefano Lonardi. // Proceedings of the sixth annual international conference on Computational biology - RECOMB '02. — New York, New York, USA: ACM Press, 2002. — ISBN 1-58113-498-3 . — doi : .

[47] S. Sinha. // Nucleic Acids Research. — 2003-07-01. — Т. 31 , вып. 13 . — С. 3586–3588 . — ISSN . — doi : .

[48] J. van Helden, B. André, J. Collado-Vides. // Journal of Molecular Biology. — 1998-09. — Т. 281 , вып. 5 . — С. 827–842 . — ISSN . — doi : .

[49] H. J. Bussemaker, H. Li, E. D. Siggia. // Proceedings of the National Academy of Sciences. — 2000-08-15. — Т. 97 , вып. 18 . — С. 10096–10100 . — ISSN . — doi : .

[50] G. Wang, T. Yu, W. Zhang. // Nucleic Acids Research. — 2005-07-01. — Т. 33 , вып. Web Server . — С. W412–W416 . — ISSN . — doi : .

[51] X. Shirley Liu, Douglas L. Brutlag, Jun S. Liu. // Nature Biotechnology. — 2002-07-08. — Т. 20 , вып. 8 . — С. 835–839 . — ISSN . — doi : .

[52] Dingqiao Wen, Yun Yu, Jiafan Zhu, Luay Nakhleh. . dx.doi.org (22 декабря 2017). Дата обращения: 11 мая 2020.

[53] F.F.M. Liu, J.J.P. Tsai, R.M. Chen, S.N. Chen, S.H. Shih. // Proceedings. Fourth IEEE Symposium on Bioinformatics and Bioengineering. — IEEE. — ISBN 0-7695-2173-8 . — doi : .

[54] Hu, Jianjun Yang, Yifeng D Kihara, Daisuke. . — BioMed Central Ltd, 2006-07-13.

[55] Martin C. Frith, Neil F. W. Saunders, Bostjan Kobe, Timothy L. Bailey. // PLoS Computational Biology. — 2008-05-09. — Т. 4 , вып. 5 . — С. e1000071 . — ISSN . — doi : .

[56] Machanick P, Bailey TL. от 7 мая 2022 на Wayback Machine Bioinformatics. 2011;27(12):1696-1697. doi:10.1093/bioinformatics/btr189.

[:14-57] Levitsky VG, Kulakovskiy IV, Ershov NI, et al. BMC Genomics. 2014;15(1):80. doi:10.1186/1471-2164-15-80.

[autogenerated1-58] Timothy L. Bailey, Mikael Bodén, Fabian A. Buske, Martin Frith, Charles E. Grant, Luca Clementi, Jingyuan Ren, Wilfred W. Li, William S. Noble от 27 апреля 2016 на Wayback Machine Nucleic Acids Research, 37:W202-W208, 2009.

[59] Vorontsov, I. E., Kulakovskiy, I. V., and Makeev, V. J. (2013). от 1 июня 2016 на Wayback Machine Algorithms Mol. Biol. 8:23. doi: 10.1186/1748-7188-8-23

[60] Mathelier, A., Fornes, O., Arenillas, D.J., Chen, C., Denay, G., Lee, J., Shi, W., Shyr, C., Tan, G., Worsley-Hunt, R., et al. (2015). Nucleic Acids Res. 2016 44: D110-D115.

[61] Hume MA, Barrera LA, Gisselbrecht SS, Bulyk ML. Nucleic Acids Research 2014; doi: 10.1093/nar/gku1045.

[62] Pachkov M, Balwierz PJ, Arnold P, Ozonov E, van Nimwegen E. от 19 февраля 2022 на Wayback Machine . Nucleic Acids Research. 2013;41(Database issue):D214-D220. doi:10.1093/nar/gks1145.

[63] Zhu LJ, Christensen RG, Kazemian M, et al. Nucleic Acids Research. 2011;39(Database issue):D111-D117. doi:10.1093/nar/gkq858.

[64] Kulakovskiy IV, Medvedeva YA, Schaefer U, et al. от 25 мая 2021 на Wayback Machine . Nucleic Acids Research. 2013;41(Database issue):D195-D202. doi:10.1093/nar/gks1089.

[65] Sebastian A, Contreras-Moreira B. Bioinformatics 30, 258-65 (2014).

Способы представления мотивов

Консенсус

Позиционная весовая матрица (ПВМ)

Методы контролируемой классификации

Основные задачи

Поиск мотивов на основе уже известных

Поиск мотивов de novo

Классификация алгоритмов

По набору исследуемых последовательностей

По принципу действия

Строковые методы

Вероятностный подход

Подходы, основанные на природных механизмах

Инструменты поиска

Анализ найденных мотивов

Ссылки

Базы данных мотивов

Веб-сайты и программы для поиска мотивов и промотерного анализа

Программы для сравнения мотивов с известными ПВМ

Примечания

Критерии значимости веб-сайтов

Индекс цитирования веб-сайтов

Same as Поиск сайтов связывания транскрипционных факторов in silico

Участок связывания лиганда с рецептором

Ранжирование методов защиты от вредных производственных факторов

Участок связывания лиганда с рецептором

Сайт связывания

Критерии значимости веб-сайтов

Критерии значимости веб-сайтов

Единый реестр запрещённых сайтов

Конструктор сайтов

Единый реестр запрещённых сайтов

Критерии значимости веб-сайтов

Критерии значимости веб-сайтов

Критерии значимости веб-сайтов

Обсуждение правил/Скриншоты сайтов

Единый реестр запрещённых сайтов

Список сайтов, использующих материалы Википедии

Критерии значимости веб-сайтов

Критерии значимости веб-сайтов

Индекс цитирования веб-сайтов

Архивирование веб-сайтов