Матрица (фильм)
- 1 year ago
- 0
- 0
Позиционная весовая матрица
(ПВМ) — биоинформатический метод, который применяется для поиска
мотивов
в биологических последовательностях.
ПВМ может быть построена на основе
множественного выравнивания
родственных последовательностей, или последовательностей, выполняющих близкие функции. ПВМ используется во многих современных алгоритмах для обнаружения новых
мотивов
.
Позиционная весовая матрица была представлена американским генетиком консенсусных последовательностей . Консенсусные последовательности использовались ранее для отображения общих мотивов в биологических последовательностях, однако этот метод имел некоторые недостатки прогнозирования и поиска этих мотивов в новых последовательностях . Впервые ПВМ была использована для поиска сайтов инициации трансляции в РНК . Для создания матрицы весов, с помощью которой можно было бы отличать истинные сайты от схожих участков последовательностей, польско-американским математиком был предложен перцептронный алгоритм. Результатом обучения перцептрона на выборках истинных и ложных сайтов являлись матрица и пороговое значение для различия этих двух наборов данных. Тестирование этой матрицы на новых последовательностях, не включенных в обучающую выборку, показало, что этот метод был более точным и чувствительным по сравнению с построением консенсусной последовательности.
и его коллегами в 1982 году как альтернативный способ представленияПреимущества ПВМ перед консенсусными последовательностями сделали матрицы популярным методом для представления мотивов в биологических последовательностях .
Строгое определение позиционно весовой матрицы выглядит следующим образом :
, где — алфавит последовательности (зд. нуклеотидов), — номер позиции,
— позиционная матрица вероятностей, — встречаемость буквы в алфавите (то есть 0.25 для последовательности нуклеотидов и 0.05 для последовательности аминокислот).
ПВМ представляет собой матрицу, количество строк которой соответствует размеру алфавита (4 нуклеотида для нуклеиновых кислот и 20 аминокислот для белковых последовательностей), а количество столбцов — длине мотива .
Первым этапом построения матрицы весов на основе множественного безделеционного выравнивания является создание позиционной матрица частот (ПМЧ). Элементы этой матрицы соответствуют тому, сколько раз каждая буква алфавита встречается на конкретной позиции в мотиве. Далее, ПМЧ преобразуется в позиционную вероятностную матрицу путём нормировки на общее число последовательностей в выравнивании. Такая матрица показывает, какова вероятность встретить данную букву в данной позиции в исходном выравнивании.
Каждый элемент вероятностной матрицы
равен вероятности встретить букву
в позиции
в исходном выравнивании и высчитывается по формуле
:
где
— номер последовательности,
— номер позиции,
— буква алфавита,
— буква, соответствующая позиции
в последовательности
, а
—
индикаторная
функция, вычисляемая по формуле:
Например, даны следующие десять выровненных последовательностей ДНК, которые представляют один мотив:
GAGGTAAAC |
TCCGTAAGT |
CAGGTTGGA |
ACAGTCAGT |
TAGGTCATT |
TAGGTACTG |
ATGGTAACT |
CAGGTATAC |
TGTGTGAGT |
AAGGTAAGT |
соответственно позиционная матрица частот:
и, следовательно, полученная после деления на число последовательностей вероятностная матрица:
В позиционной вероятностной матрице сумма значений каждого столбца, то есть вероятность встретить какую-нибудь букву алфавита в данной позиции, в случае безделеционного исходного выравнивания равна 1.
С помощью этой матрицы можно рассчитать вероятность того, что, генерируя с указанной в ней вероятностью буквы в каждой позиции, мы получим последовательность
. Так как столбцы матрицы предполагаются
независимыми
друг от друга, эта вероятность равна произведению вероятностей получить каждую букву последовательности в её позиции, то есть:
где
— буква последовательности
в позиции
.
Например, вероятность того, что последовательности S = GAGGTAAAC получена матрицей
из предыдущего примера, может быть рассчитана:
Для расчета позиционной матрицы вероятностей из небольшого массива данных часто применяются . Из-за неполноты выборки может возникнуть ситуация, когда в некоторой позиции в исходной выборке представлены не все буквы. В таком случае вероятность получить эту букву при генерации случайной последовательности из этой матрицы будет равна нулю. Соответственно, вероятность сгенерировать последовательность с такой буквой в этой позиции тоже будет равна нулю вне зависимости от остальной последовательности . Чтобы избежать этого, к каждому элементу вероятностной матрицы прибавляется некоторое значение, называемое псевдосчетом, чтобы сделать его отличным от нуля. По к каждому элементу матрицы частот добавляется 1 — минимальная возможная встречаемость буквы в этом положении. Существуют более сложные системы псевдосчетов, например, использующие смеси Дирихле или .
Учитывая псевдосчеты, определение матрицы вероятностей может быть сформулировано:
, где — ПМЧ, — псевдосчетная функция .
В приведенном выше примере, построенном без применения псевдосчетов, любая последовательность, которая не имеет G в четвёртой позиции или T в пятой позиции, будет иметь вероятность 0.
Последний шаг для создания ПВМ — переход от вероятностей букв в различных положениях мотива к их весам. Чаще всего эти веса вычисляются как логарифмическое отношение правдоподобия с учётом фоновой модели генерации случайной последовательности b. Простейшая фоновая модель предполагает, что каждая буква появляется одинаково часто в любой позиции наборе данных, то есть значение для любого символа в алфавите (0.25 для нуклеотидов и 0.05 для аминокислот, соответственно). Фоновая модель не обязательно должна подразумевать равномерное распределение букв: например, при изучения организмов с высоким GC-составом вероятности для C и G могут увеличиться, а для А и Т — соответственно уменьшиться. Таким образом, элементы матрицы весов рассчитываются по формуле :
Применяя эту трансформацию к вероятностной матрице из примера (без учета псевдосчетов) получаем:
В случае, если элементы ПВМ рассчитываются с использованием логарифмического отношения правдоподобия, вес последовательности может быть рассчитан как сумма весов для каждой буквы этой последовательности в её позиции. Полученный вес дает представление о том, насколько эта последовательность соответствует мотиву, по которому была создана позиционная матрица весов. Чем выше вероятность того, что последовательность сгенерирована соответствующей вероятностной матрицей, а не случайна, тем выше вес.
Информационное содержание ПВМ показывает, насколько описанное в ней распределение букв в позициях отличается от равномерного распределения . Собственная информация для каждого символа в позиции мотива, равна:
Ожидаемая (средняя) собственная информация для этого элемента равна:
Информационное содержание всей матрицы равна сумме всех ожидаемых средних собственных информаций каждого элемента матрицы. Информационное содержание ПВМ в случае с неравномерным фоновым распределением рассчитывается по формуле:
Информационное содержание соотносится с расстоянием Кульбака — Лейблера или относительной энтропией . Однако, при использовании алгоритма PSSM для поиска геномных последовательностей (см. Ниже) такая равномерная коррекция может привести к переоценке важности различных оснований в мотиве из-за неравномерного распределения n-mers в реальных геномах, ведущих к значительно большему числу ложных срабатываний .
ПВМ широко применяются для анализа нуклеотидных и белковых последовательностей. Прежде всего, они используются для поиска специфических сайтов и мотивов. Например, алгоритм MATCH способен искать в последовательностях ДНК потенциальные сайты связывания транскрипционных факторов. Аналогичные подходы используются для белков . Помимо поиска функциональных доменов, с помощью ПВМ можно предсказывать различные свойства белков, такие как вторичная структура , их доступность для растворителя , контакты в структуре . Помимо поиска мотивов, ПВМ, построенные по множественному выравниванию, используются для описания семейств белков. Существуют базы ПВМ, с помощью которых можно определять принадлежность интересующего белка к известным семействам. Также совершенствуются методы построения и использования ПВМ. Например, был разработан способ создания ПВМ без использования больших множественных выравниваний белков, что значительно ускоряет расчеты при наличии большого массива исходных данных . Кроме того, существует подход с использованием множественных ПВМ для описания семейств белков: в таком случае строится не одна, а много матриц с использованием разных неблизких (чтобы избежать смещения) белков семейства.
Существуют различные алгоритмы для сканирования совпадений PWM в последовательностях. Одним из примеров является алгоритм MATCH, который был реализован в ModuleMaster. Более сложные алгоритмы для быстрого поиска в базе данных с помощью нуклеотидов, а также PWM / PSSM аминокислот внедрены в программное обеспечение possumsearch и описаны Beckstette, et al. (2006 год) .
Так же, среди наиболее известных алгоритмов, присутствуют MEME и Gibbs .
Готовой реализацией ПВМ можно воспользоваться на языках программирования Python (пакет ) и R (библиотека ).
#install if necessary
source("http://bioconductor.org/biocLite.R")
biocLite("seqLogo")
library(seqLogo)
a <- c(0, 4, 4, 0, 3, 7, 4, 3, 5, 4, 2, 0, 0, 4)
c <- c(3, 0, 4, 8, 0, 0, 0, 3, 0, 0, 0, 0, 2, 4)
g <- c(2, 3, 0, 0, 0, 0, 0, 0, 1, 0, 6, 8, 5, 0)
t <- c(3, 1, 0, 0, 5, 1, 4, 2, 2, 4, 0, 0, 1, 0)
df <- data.frame(a,c,g,t)
df
a c g t
1 0 3 2 3
2 4 0 3 1
3 4 4 0 0
4 0 8 0 0
5 3 0 0 5
6 7 0 0 1
7 4 0 0 4
8 3 3 0 2
9 5 0 1 2
10 4 0 0 4
11 2 0 6 0
12 0 0 8 0
13 0 2 5 1
14 4 4 0 0
#define function that divides the frequency by the row sum i.e. proportions
proportion <- function(x){
rs <- sum(x);
return(x / rs);
}
#create position weight matrix
mef2 <- apply(df, 1, proportion)
mef2 <- makePWM(mef2)
seqLogo(mef2)