Interested Article - Позиционная весовая матрица

Позиционная весовая матрица (ПВМ) — биоинформатический метод, который применяется для поиска мотивов в биологических последовательностях.
ПВМ может быть построена на основе множественного выравнивания родственных последовательностей, или последовательностей, выполняющих близкие функции. ПВМ используется во многих современных алгоритмах для обнаружения новых мотивов .

История вопроса

Позиционная весовая матрица была представлена американским генетиком (англ.) ( и его коллегами в 1982 году как альтернативный способ представления консенсусных последовательностей . Консенсусные последовательности использовались ранее для отображения общих мотивов в биологических последовательностях, однако этот метод имел некоторые недостатки прогнозирования и поиска этих мотивов в новых последовательностях . Впервые ПВМ была использована для поиска сайтов инициации трансляции в РНК . Для создания матрицы весов, с помощью которой можно было бы отличать истинные сайты от схожих участков последовательностей, польско-американским математиком (англ.) ( был предложен перцептронный алгоритм. Результатом обучения перцептрона на выборках истинных и ложных сайтов являлись матрица и пороговое значение для различия этих двух наборов данных. Тестирование этой матрицы на новых последовательностях, не включенных в обучающую выборку, показало, что этот метод был более точным и чувствительным по сравнению с построением консенсусной последовательности.

Преимущества ПВМ перед консенсусными последовательностями сделали матрицы популярным методом для представления мотивов в биологических последовательностях .

Математическое определение

Строгое определение позиционно весовой матрицы выглядит следующим образом :

$W_{k,j}=log_{2}\left({\frac {P_{k,j}}{P_{k}}}\right)$ , где $k=\{A,T,G,C\}$ — алфавит последовательности (зд. нуклеотидов), $j=1,...,J$ — номер позиции,

$P_{k,j}$ — позиционная матрица вероятностей, $P_{k}$ — встречаемость буквы $k$ в алфавите (то есть 0.25 для последовательности нуклеотидов и 0.05 для последовательности аминокислот).

Создание ПВМ

ПВМ представляет собой матрицу, количество строк которой соответствует размеру алфавита (4 нуклеотида для нуклеиновых кислот и 20 аминокислот для белковых последовательностей), а количество столбцов — длине мотива .

Шаг 1. Построение позиционной матрицы вероятностей

Первым этапом построения матрицы весов на основе множественного безделеционного выравнивания является создание позиционной матрица частот (ПМЧ). Элементы этой матрицы соответствуют тому, сколько раз каждая буква алфавита встречается на конкретной позиции в мотиве. Далее, ПМЧ преобразуется в позиционную вероятностную матрицу путём нормировки на общее число последовательностей в выравнивании. Такая матрица показывает, какова вероятность встретить данную букву в данной позиции в исходном выравнивании.

Каждый элемент вероятностной матрицы $P_{k,j}$ равен вероятности встретить букву $k$ в позиции $j$ в исходном выравнивании и высчитывается по формуле :
${\textstyle P_{k,j}={\frac {1}{N}}\sum _{i=1}^{N}I\left({X_{i,j}=k}\right),}$
где $i=1,...,N$ — номер последовательности, $j=1,...,J$ — номер позиции, $k$ — буква алфавита,

$X_{i,j}$ — буква, соответствующая позиции $j$ в последовательности $i$ , а $I$ — индикаторная функция, вычисляемая по формуле:
_{${\textstyle {I\left(a=k\right)}=\left\{{\begin{matrix}1,&a=k,\\0,&a\neq k,\end{matrix}}\right.}$}

Например, даны следующие десять выровненных последовательностей ДНК, которые представляют один мотив:

`GAGGTAAAC`
`TCCGTAAGT`
`CAGGTTGGA`
`ACAGTCAGT`
`TAGGTCATT`
`TAGGTACTG`
`ATGGTAACT`
`CAGGTATAC`
`TGTGTGAGT`
`AAGGTAAGT`

соответственно позиционная матрица частот:

F={\begin{matrix}A\\C\\G\\T\end{matrix}}{\begin{bmatrix}3&6&1&0&0&6&7&2&1\\2&2&1&0&0&2&1&1&2\\1&1&7&10&0&1&1&5&1\\4&1&1&0&10&1&1&2&6\end{bmatrix}}.

и, следовательно, полученная после деления на число последовательностей вероятностная матрица:

P={\begin{matrix}A\\C\\G\\T\end{matrix}}{\begin{bmatrix}0.3&0.6&0.1&0.0&0.0&0.6&0.7&0.2&0.1\\0.2&0.2&0.1&0.0&0.0&0.2&0.1&0.1&0.2\\0.1&0.1&0.7&1.0&0.0&0.1&0.1&0.5&0.1\\0.4&0.1&0.1&0.0&1.0&0.1&0.1&0.2&0.6\end{bmatrix}}

.

В позиционной вероятностной матрице сумма значений каждого столбца, то есть вероятность встретить какую-нибудь букву алфавита в данной позиции, в случае безделеционного исходного выравнивания равна 1.

С помощью этой матрицы можно рассчитать вероятность того, что, генерируя с указанной в ней вероятностью буквы в каждой позиции, мы получим последовательность $S$ . Так как столбцы матрицы предполагаются независимыми друг от друга, эта вероятность равна произведению вероятностей получить каждую букву последовательности в её позиции, то есть:
${\textstyle p(S\vert P)=\prod _{j=0}^{J}P_{S_{j},j},}$
где $S_{j}$ — буква последовательности $S$ в позиции $j$ .
Например, вероятность того, что последовательности S = GAGGTAAAC получена матрицей $P$ из предыдущего примера, может быть рассчитана:
$p(S\vert P)=0.1\times 0.6\times 0.7\times 1.0\times 1.0\times 0.6\times 0.7\times 0.2\times 0.2=0.0007056.$

Замечание

Для расчета позиционной матрицы вероятностей из небольшого массива данных часто применяются . Из-за неполноты выборки может возникнуть ситуация, когда в некоторой позиции в исходной выборке представлены не все буквы. В таком случае вероятность получить эту букву при генерации случайной последовательности из этой матрицы будет равна нулю. Соответственно, вероятность сгенерировать последовательность с такой буквой в этой позиции тоже будет равна нулю вне зависимости от остальной последовательности . Чтобы избежать этого, к каждому элементу вероятностной матрицы прибавляется некоторое значение, называемое псевдосчетом, чтобы сделать его отличным от нуля. По к каждому элементу матрицы частот добавляется 1 — минимальная возможная встречаемость буквы в этом положении. Существуют более сложные системы псевдосчетов, например, использующие смеси Дирихле или .

Учитывая псевдосчеты, определение матрицы вероятностей может быть сформулировано:

$P_{k,j}={\frac {F_{k,j}+e\left(k\right)}{N+\sum {e\left(k'\right)}}}$ , где $F_{k,j}$ — ПМЧ, $e\left(k\right)$ — псевдосчетная функция .

В приведенном выше примере, построенном без применения псевдосчетов, любая последовательность, которая не имеет G в четвёртой позиции или T в пятой позиции, будет иметь вероятность 0.

Шаг 2. Переход от вероятностей к весам

Последний шаг для создания ПВМ — переход от вероятностей букв в различных положениях мотива к их весам. Чаще всего эти веса вычисляются как логарифмическое отношение правдоподобия с учётом фоновой модели генерации случайной последовательности b. Простейшая фоновая модель предполагает, что каждая буква появляется одинаково часто в любой позиции наборе данных, то есть значение $P_{k}=1/\vert k\vert$ для любого символа в алфавите (0.25 для нуклеотидов и 0.05 для аминокислот, соответственно). Фоновая модель не обязательно должна подразумевать равномерное распределение букв: например, при изучения организмов с высоким GC-составом вероятности для C и G могут увеличиться, а для А и Т — соответственно уменьшиться. Таким образом, элементы матрицы весов рассчитываются по формуле :

W_{k,j}=\mathrm {ln} \;(P_{k,j}/P_{k}).

Применяя эту трансформацию к вероятностной матрице из примера (без учета псевдосчетов) получаем:

W={\begin{matrix}A\\C\\G\\T\end{matrix}}{\begin{bmatrix}0.18&0.87&-0.91&-\infty &-\infty &0.87&1.02&-0.22&-0.91\\-0.22&-0.22&-0.91&-\infty &-\infty &-0.22&-0.91&-0.91&-0.22\\-0.91&-0.91&1.02&1.38&-\infty &-0.91&-0.91&0.69&-0.91\\0.47&-0.91&-0.91&-\infty &1.38&-0.91&-0.91&-0.22&0.87\end{bmatrix}}.

В случае, если элементы ПВМ рассчитываются с использованием логарифмического отношения правдоподобия, вес последовательности может быть рассчитан как сумма весов для каждой буквы этой последовательности в её позиции. Полученный вес дает представление о том, насколько эта последовательность соответствует мотиву, по которому была создана позиционная матрица весов. Чем выше вероятность того, что последовательность сгенерирована соответствующей вероятностной матрицей, а не случайна, тем выше вес.

Информативность ПBМ

Информационное содержание ПВМ показывает, насколько описанное в ней распределение букв в позициях отличается от равномерного распределения . Собственная информация для каждого символа $i$ в позиции $j$ мотива, равна:

-\log(p_{i,j})

Ожидаемая (средняя) собственная информация для этого элемента равна:

-p_{i,j}\cdot \log(p_{i,j})

Информационное содержание всей матрицы равна сумме всех ожидаемых средних собственных информаций каждого элемента матрицы. Информационное содержание ПВМ в случае с неравномерным фоновым распределением рассчитывается по формуле:

\textstyle -\sum _{i,j}p_{i,j}\cdot \log(p_{i,j}/p_{j}),

где

p_{j}

— фоновая частота для данного символа.

Информационное содержание соотносится с расстоянием Кульбака — Лейблера или относительной энтропией . Однако, при использовании алгоритма PSSM для поиска геномных последовательностей (см. Ниже) такая равномерная коррекция может привести к переоценке важности различных оснований в мотиве из-за неравномерного распределения n-mers в реальных геномах, ведущих к значительно большему числу ложных срабатываний .

Использование ПBМ

ПВМ широко применяются для анализа нуклеотидных и белковых последовательностей. Прежде всего, они используются для поиска специфических сайтов и мотивов. Например, алгоритм MATCH способен искать в последовательностях ДНК потенциальные сайты связывания транскрипционных факторов. Аналогичные подходы используются для белков . Помимо поиска функциональных доменов, с помощью ПВМ можно предсказывать различные свойства белков, такие как вторичная структура , их доступность для растворителя , контакты в структуре . Помимо поиска мотивов, ПВМ, построенные по множественному выравниванию, используются для описания семейств белков. Существуют базы ПВМ, с помощью которых можно определять принадлежность интересующего белка к известным семействам. Также совершенствуются методы построения и использования ПВМ. Например, был разработан способ создания ПВМ без использования больших множественных выравниваний белков, что значительно ускоряет расчеты при наличии большого массива исходных данных . Кроме того, существует подход с использованием множественных ПВМ для описания семейств белков: в таком случае строится не одна, а много матриц с использованием разных неблизких (чтобы избежать смещения) белков семейства.

Алгоритмы для построения и использования ПВМ

Существуют различные алгоритмы для сканирования совпадений PWM в последовательностях. Одним из примеров является алгоритм MATCH, который был реализован в ModuleMaster. Более сложные алгоритмы для быстрого поиска в базе данных с помощью нуклеотидов, а также PWM / PSSM аминокислот внедрены в программное обеспечение possumsearch и описаны Beckstette, et al. (2006 год) .

Так же, среди наиболее известных алгоритмов, присутствуют MEME и Gibbs .

Реализация ПВМ

Готовой реализацией ПВМ можно воспользоваться на языках программирования Python (пакет ) и R (библиотека ).

Пример кода на R

#install if necessary
source("http://bioconductor.org/biocLite.R")
biocLite("seqLogo")
 
library(seqLogo)
 
a <- c(0, 4, 4, 0, 3, 7, 4, 3, 5, 4, 2, 0, 0, 4)
c <- c(3, 0, 4, 8, 0, 0, 0, 3, 0, 0, 0, 0, 2, 4)
g <- c(2, 3, 0, 0, 0, 0, 0, 0, 1, 0, 6, 8, 5, 0)
t <- c(3, 1, 0, 0, 5, 1, 4, 2, 2, 4, 0, 0, 1, 0)
 
df <- data.frame(a,c,g,t)
df
   a c g t
1  0 3 2 3
2  4 0 3 1
3  4 4 0 0
4  0 8 0 0
5  3 0 0 5
6  7 0 0 1
7  4 0 0 4
8  3 3 0 2
9  5 0 1 2
10 4 0 0 4
11 2 0 6 0
12 0 0 8 0
13 0 2 5 1
14 4 4 0 0
 
#define function that divides the frequency by the row sum i.e. proportions
proportion <- function(x){
   rs <- sum(x);
   return(x / rs);
}
 
#create position weight matrix
mef2 <- apply(df, 1, proportion)
mef2 <- makePWM(mef2)
seqLogo(mef2)

Примечания

↑ . www.lifesciencessociety.org. Дата обращения: 30 апреля 2017. 2 декабря 2016 года.
Stormo, Gary D.; Schneider, Thomas D.; Gold, Larry; Ehrenfeucht, Andrzej. Use of the ‘Perceptron’ algorithm to distinguish translational initiation sites in E. coli (англ.) // : journal. — 1982. — Vol. 10 , no. 9 . — P. 2997—3011 . — doi : .
Stormo, G. D. (неопр.) // Bioinformatics. — 2000. — 1 January ( т. 16 , № 1 ). — С. 16—23 . — doi : . — .
Sinha, S. On counting position weight matrix matches in a sequence, with application to discriminative motif finding (англ.) // Bioinformatics : journal. — 2006. — 27 July ( vol. 22 , no. 14 ). — P. e454—e463 . — doi : .
Xia, Xuhua. Position Weight Matrix, Gibbs Sampler, and the Associated Significance Tests in Motif Characterization and Prediction (англ.) // Scientifica : journal. — 2012. — Vol. 2012 . — P. 1—15 . — doi : .
↑ . Musings from an unlikely candidate (англ.) . 2013-10-01. из оригинала 1 апреля 2017 . Дата обращения: 30 апреля 2017 .
Guigo, Roderic . . Дата обращения: 29 апреля 2015. 28 ноября 2012 года.
Nishida, K.; Frith, M. C.; Nakai, K. Pseudocounts for transcription factor binding sites (англ.) // (англ.) ( : journal. — 2008. — 23 December ( vol. 37 , no. 3 ). — P. 939—944 . — doi : .
. Musings from an unlikely candidate (англ.) . 2013-10-01. из оригинала 1 апреля 2017 . Дата обращения: 31 марта 2017 .
Ivan Erill, Michael C O'Neill. // BMC Bioinformatics. — 2009-02-11. — Т. 10 . — С. 57 . — ISSN . — doi : .
Kel A. E., et al. MATCHTM: a tool for searching transcription factor binding sites in DNA sequences (англ.) // (англ.) ( : journal. — 2003. — Vol. 31 , no. 13 . — P. 3576—3579 . — doi : . — . — PMC .
Beckstette M., et al. Fast index based algorithms and software for matching position specific scoring matrices (англ.) // (англ.) ( : journal. — 2006. — Vol. 7 . — P. 389 . — doi : . — . — PMC .
Jones D. T. Protein secondary structure prediction based on position-specific scoring matrices (англ.) // (англ.) ( : journal. — 1999. — Vol. 292 . — P. 195—202 . — .
Pollastri, G. & McLysaght, A. Porter: a new, accurate server for protein secondary structure prediction (англ.) // Bioinformatics : journal. — 2005. — Vol. 21 . — P. 1719—1720 . — .
Rost, B. Review: protein secondary structure prediction continues to rise (англ.) // (англ.) ( : journal. — 2001. — Vol. 134 . — P. 204—218 . — .
Adamczak, R.; Porollo, A. & Meller, J. Accurate prediction of solvent accessibility using neural networks-based regression (англ.) // Proteins : journal. — 2004. — Vol. 56 . — P. 753—767 . — .
Pollastri, G.; Martin, A. J. M.; Mooney, C. & Vullo, A. Accurate prediction of protein secondary structure and solvent accessibility by consensus combiners of sequence and structure information (англ.) // (англ.) ( : journal. — 2007. — Vol. 8 . — P. 201 . — . — PMC .
Pollastri, G.; Baldi, P.; Fariselli, P. & Casadio, R. Improved prediction of the number of residue contacts in proteins by recurrent neural networks (англ.) // Bioinformatics : journal. — 2001. — Vol. 17 . — P. Suppl 1 : S234—S242 . — .
Shandar Ahmad and Akinori Sarai. PSSM-based prediction of DNA binding sites in proteins (англ.) // (англ.) ( : journal. — 2005. — Vol. 6 . — P. 33 . — . — PMC .
Michael Beckstette, Robert Homann, Robert Giegerich, Stefan Kurtz. // BMC Bioinformatics. — 2006-08-24. — Т. 7 . — С. 389 . — ISSN . — doi : .