Interested Article - BWA (выравнивание биологических последовательностей)

BWA ( англ. B urrows- W heeler A ligner ) — программный пакет для картирования коротких прочтений на большие референсные геномы (такие как, например, геном человека ), написанный китайским биоинформатиком и англичанином . Является одним из широкоиспользуемых алгоритмов выравнивания , а также рекомендуется для анализа данных производителями Illumina . BWA состоит из трёх основных алгоритмов: BWA-BackTrack, BWA-SW и BWA-MEM. В основе алгоритмов BWA лежит преобразование Барроуза—Уилера , суффиксные массивы и алгоритм выравнивания Смита—Ватермана . Программный пакет умеет работать с длинными последовательностями на порядок быстрее, чем ( англ. Mapping and Assembly with Qualities ) при достижении аналогичной точности выравнивания .

Для образцов c платформ Illumina-SOLEXA , 454 Life Sciences , ионного полупроводникового секвенирования или секвенирования по Сэнгеру с длиной чтений («ридов» от англ. read — «чтение, прочтение»; отдельные фрагменты ДНК, полученные в результате работы секвенатора ) больше или равных 70 пар оснований (здесь и далее — п.о.), BWA-MEM обычно предпочтительней. BWA-MEM и BWA-SW имеют схожие функции, такие как, например, поддержка длинных прочтений. BWA-MEM имеет лучшую производительность, чем BWA-BackTrack для чтений длиной 70—100 п.о. с платформы Illumina-SOLEXA.

Независимо от выбранного алгоритма программный пакет BWA сначала должен построить FM-индекс для референсного генома. Для создания индекса используется следующая команда: bwa index [-p prefix] [-a algoType] <in.db.fasta> . Далее к полученным данным применяются алгоритмы выравнивания, которые вызываются различными подкомандами: aln/samse/sampe для BWA-BackTrack, bwasw для BWA-SW и mem для BWA-MEM .

История

Хенг Ли, научный сотрудник Кембриджского института Броуда , начал писать первую часть кода 24 мая 2008 года и получил первоначальную стабильную версию уже 2 июня того же года. В этот же период профессор Tak-Wah Lam, первый автор статьи BWT-SW , сотрудничал с в работе над SOAP2, преемником SOAP (пакет анализа коротких олигонуклеотидных последовательностей). SOAP2 вышел в ноябре 2008 года.

Алгоритм BWA-SW является новым компонентом BWA. Он был задуман в ноябре 2008 года и реализован спустя десять месяцев. По состоянию на 2015 год BWA-MEM (0.7.10) считался более предпочтительным в использовании для поиска снипов, чем bowtie (2-2.2.25) или Novoalign (3.02.12) .

Использование

Программный пакет BWA может быть использован в таких областях, как генотипирование для поиска однонуклеотидных полиморфизмов (снипов) . Генотипирование позволяет проводить индивидуальное сравнение генотипов разных людей, с помощью него можно предсказывать предрасположенность людей к всевозможным заболеваниям, таким как, например, рак, диабет и многие другие. Так же пакет будет полезен в транскриптомике .

Начиная с версии 0.6.x, все алгоритмы могут работать с геномами, общая длина которых превышает 4 Гб . Тем не менее, размер индивидуальной хромосомы не должен превышать 2 Гб. Каждый алгоритм вызывается отдельной командой, принимает входной файл через стандартный поток ввода («stdin») и возвращает результат через стандартный поток вывода («stdout»).

BWA-BackTrack

Сначала строится суффиксный массив, а затем генерируется BWT. Неопределённые нуклеотиды (обозначаются литерой «N») в референсном геноме преобразуются в случайные нуклеотиды, а в чтениях рассматриваются как несовпадения. Это может привести к регионам ложных совпадений («хитов») с неоднозначными основаниями. Но вероятность того, что это может произойти очень небольшая, учитывая относительно длинные чтения .

BWA-SW

BWA-SW строит FM-индексы и для референсной последовательности и для чтений. Он неявно представляет собой референсную последовательность в виде префиксного дерева и чтения в виде детерминированного ациклического конечного автомата , который составляется из префиксного дерева для чтения с использованием динамического программирования . В отличие от BLAT и SSAHA2, BWA-SW находит сиды (от англ. seed — «семя»; точное совпадение нескольких пар оснований чтения ) в референсном геноме с помощью построения FM-индексов. Выравнивание расширяется тогда, когда сид имеет несколько вхождений в эталонной последовательности. Скорость достигается за счёт уменьшения ненужного расширения для высоко повторяющихся последовательностей. По сравнению со стандартным выравниванием Смита — Ватермана, временная сложность которого равна $O(|X|*|W|)$ , BWA-SW имеет лучшую временную сложность так как он, как минимум, не медленнее, чем BWT-SW, сложность которого — $O(|X|*0,628*|W|)$ . В BWA-SW два выравнивания считаются различными в том случае, если длина зоны перекрытия по запросу составляет менее половины длины более короткого сегмента запроса.

Реализация BWA-SW принимает индекс BWA и FASTA запроса или FASTQ файла в качестве входных данных и выводит выравнивание в формате SAM. Входной файл, как правило, содержит много последовательностей («ридов»). Каждая последовательность обрабатывается, в свою очередь, с использованием нескольких потоков (если это возможно). Использование памяти при работе с данным алгоритмом составляет около 5 Гб для индексирования полных последовательностей генома человека . Для коротких прочтений требуется приблизительно 3,2 Гб при использовании команды aln и 5,4 Гб при использовании sampe . Необходимый объём памяти для каждого запроса примерно пропорционален длине последовательности. Кроме того, BWA-SW способен обнаружить химеру, потенциально вызванную структурными изменениями или эталонными ошибками сборки ридов, которые могут представлять угрозу для BLAT и SSAHA2. BWA-SW отличается от BWT-SW в нескольких аспектах : BWT-SW гарантирует, что найдёт все локальные совпадения, в то время как BWA-SW представляет собой эвристический алгоритм, который может пропустить истинные совпадения, но работает гораздо быстрее.

BWA-MEM

BWA-MEM является последним реализованным алгоритмом пакета BWA. Он использует стратегию, в которой алгоритм выравнивания прочтений выбирается автоматически в каждом конкретном случае: локальное или глобальное выравнивание. Поддерживаются парноконцевые прочтения и выравнивания химерных прочтений. Алгоритм устойчив к ошибкам секвенирования и применим к широкому диапазону последовательности длиной от 70 п.о. до нескольких мегабаз. А для картирования последовательностей длинной 100 п.о. BWA-MEM показывает лучшую производительность, чем некоторые передовые алгоритмы выравнивания прочтений .

Показатели качества

Для каждого выравнивания программный пакет BWA вычисляет оценку качества картирования — Phred масштабированную вероятность того, что выравнивание является некорректным ( англ. Phred quality score — оценка качества прочитанного нуклеотида ДНК). Необходимость статистической оценки картирования возникает из-за того, что риды получаются маленькие (40—100 п.о), а геномы достаточно большие, поэтому выравниваний может быть несколько. Тем не менее, необходимо понять, какое из них наиболее информативное. И по сути Phred-оценка представляет собой вероятность того, что рид выравнен неправильно. Вычисляется она по формуле $p=10^{-q/10}$ , где q — качество прочтения рида . Алгоритм аналогичен оценке для , за исключением того, что в BWA предполагается, что истинное совпадение всегда может быть найдено. Такое изменение было сделано в связи с тем, что формула MAQ переоценивает вероятность пропуска истинного совпадения, что приводит к заниженному качеству картирования. Моделирование показывает, что BWA может переоценивать качество картирования из-за этой модификации, но отклонение относительно невелико.

Примеры

Пример сценария использования программного пакета BWA от Голландского вычислительного центра выглядит следующим образом :

Шаг 1 — индексирование генома (∼3 CPU часа для генома человека): bwa index -a bwtsw ref.fa

,где ref.fa — название файла с референсным геномом.

Шаг 2а — генерирование выравнивания в координатах суффиксного массива: bwa aln ref.fa read1.fq.gz > read1.sai; bwa aln ref.fa read2.fq.gz > read2.sai

,где read1.fq.gz — файл с прямыми чтениями, read2.fq.gz — обратными чтениями. Применяем параметр -q15, если качество меньше на 3’-концах чтений.

Шаг 3а — генерирование выравнивания в SAM формате для парноконцевых чтений: bwa sampe ref.fa read1.sai read2.fq.gz > aln.sam
Шаг 4a — генерирование выравнивания в SAM формате для непарноконцевых чтений: bwa samse ref.fa read1.sai read1.fq.gz
Шаг 2б — BWA-SW для длинных чтений: bwa bwasw ref.fa long-read.fq.gz > aln-long.sam

,где long-read.fq.gz — файл с длинными чтениями.

Для дальнейшей совместимости полученного выравнивания со стандартными программами для анализа NGS данных, таких как, например, Pikard Tools или GATK, при вызове программы следует указывать так называемую группу прочтения ( англ. read group — набор данных, полученных с помощью одного режима работы секвенсора) добавлением флага -r . Сама группа прочтения для образца с платформы Illumina-SOLEXA выглядит примерно следующим образом: -r ‘@RG\tID:1\tSM:S000336\tPL:ILLUMINA\tLB:L00000336\t PU:C3A7NACXX:1’ , где ID — это уникальный идентификатор данного образца, SM — это названия образца, Pl — это платформа для секвенирования, LB — название библиотеки, а PU — системный идентификатор .

Практическое значение

На практике BWA является основным инструментом, предназначенным для выравнивания коротких ридов . В настоящее время BWA применяется в следующих исследованиях:

Секвенирование и сборка генома.
Поиск однонуклеотидных полиморфизмов.
Поиск делеций и вставок.

Основными преимуществами использования программного комплекса BWA являются следующие его достоинства :

Высокая скорость работы
Небольшие затраты по памяти.
Простой интерфейс.
При тонкой настройке лучшие статистические параметры

Также BWA входит в состав самых широко используемых биологических конвейеров не только в научной деятельности, но и в клинической:

GATK
AMAP
SPAdes

Примечания

Heng Li. (англ.) . GitHub. Дата обращения: 5 апреля 2017. Архивировано из 5 апреля 2017 года.
Гольцов А.Ю., Андреева Т.В., Решетов Д.А., Тяжелова Т.В., Гаврик О.А., Рогаев Е.И. // Современные проблемы науки и образования : журнал. — М. : Российская академия естествознания, 2012. — № 6 . — С. 23 . — ISSN . 5 апреля 2017 года.
Ivan Borozan, Stuart N. Watt, Vincent Ferretti. // PLoS One : журнал. — 2013. — Т. 8 , вып. 10 . — .
↑ Li Heng, Homer Nils. // Brief Bioinformatics : журнал. — 2010. — Сентябрь ( т. 11 , вып. 5 ). — С. 473—483 . — doi : . — . 15 апреля 2017 года.
Jing Shang, Fei Zhu, Wanwipa Vongsangnak, Yifei Tang, Wenyu Zhang, Bairong Shen. // Brief Bioinformatics : журнал. — 2010. — Сентябрь ( т. 11 , вып. 5 ). — С. 1754—1760 . — .
(англ.) . Illumina. 30 января 2016 года.
↑ Li Heng, Durbin Richard. (англ.) // Bioinformatics : журнал. — Oxford University Press, 2010. — 1 March ( vol. 26 , iss. 5 ). — P. 589—595 . — ISSN . — doi : . — . 5 апреля 2017 года.
↑ (англ.) . SouceForge. Дата обращения: 5 апреля 2017. Архивировано из 5 апреля 2017 года.
(англ.) . SourceForge. Дата обращения: 6 апреля 2017. Архивировано из 6 апреля 2017 года.
↑ Lam TW, Sung WK, Tam SL, Wong CK, Yiu SM. (англ.) // Bioinformatics : журнал. — Oxford University Press, 2008. — 15 March ( vol. 24 , iss. 6 ). — P. 791—797 . — ISSN . — doi : . — . 5 апреля 2017 года.
Sohyun Hwang, Eiru Kim, Insuk Lee, Edward M. Marcotteb. (англ.) // Scientific Reports : онлайн-журнал. — Macmillan Publishers Limited, 2015. — Iss. 5 . — ISSN . — doi : . 5 апреля 2017 года.
Pareek C. S., Błaszczyk P., Dziuba P., Czarnik U., Fraser L., Sobiech P., Pierzchała M., Feng Y., Kadarmideen H. N., Kumar D. // PLoS One : журнал. — 2017. — Февраль ( т. 12 , вып. 2 ). — doi : . — . 15 апреля 2017 года.
Robinson K. M., Crabtree J., Mattick J. S., Anderson K. E., Dunning Hotopp J. C. // Microbiome : журнал. — Лондон, Великобритания: BioMed Central, 2017. — Январь ( т. 5 , вып. 1 ). — ISSN . — . 5 апреля 2017 года.
Li Heng, Durbin Richard. (англ.) // Bioinformatics : журнал. — Oxford University Press, 2009. — 15 July ( vol. 25 , iss. 14 ). — P. 1754—1760 . — ISSN . — doi : . — . 5 апреля 2017 года.
Al-Absi A. A., Kang D. K. // BioMed Research International : журнал. — Египет: Хиндави , 2015. — Декабрь. — ISSN . — doi : . — . 5 апреля 2017 года.
Li Heng. (англ.) . — Кембридж, США: Oxford University Press, 2016. — 16 March. — P. 1—3 . — arXiv : . 5 апреля 2017 года.
Peter J. A. Cock, Christopher J. Fields, Naohisa Goto, Michael L. Heuer, Peter M, Rice. (англ.) // Nuclear Acid Res : журнал. — 2010. — April ( vol. 38 , iss. 6 ). — P. 1767—1771 . — doi : . — . 15 апреля 2017 года.
(англ.) . Голландский вычислительный центр. Архивировано из 5 апреля 2017 года.
↑ Bukowski Robert, Sun Qi, Wang Minghui. . — Bioinformatics Facility, Institute of Biotechnology. — С. 22 . 6 апреля 2017 года.
The SAM/BAM Format Specification Working Group. (англ.) С. 3. GitHub (28 апреля 2016). Дата обращения: 6 апреля 2017. Архивировано из 6 апреля 2017 года.
José M. Abuín, Juan C. Pichel, Tomás F. Pena, Jorge Amigo. (англ.) // PLoS One : журнал. — 2016. — Vol. 11 , iss. 5 . — doi : . 5 апреля 2017 года.
Justin Chu, Sara Sadeghi, Anthony Raymond, Shaun D. Jackman, Ka Ming Nip, Richard Mar, Hamid Mohamadi, Yaron S. Butterfield, A. Gordon Robertson, Inanç Birol. (англ.) // Bioinformatics : журнал. — 2014. — 1 December ( vol. 30 , iss. 23 ). — P. 3402—3404 . — doi : . 15 апреля 2017 года.
David Weese, Manuel Holtgrewe, Knut Reinert. (англ.) // Bioinformatics : журнал. — Oxford University Press, 2012. — 15 October ( vol. 28 , iss. 20 ). — P. 2592—2599 . — ISSN . — doi : . — . 6 апреля 2017 года.
Barh Debmalya, Khan Muhammad Sarwar, Davies Eric. . — Springer, 2015. — С. 56. — 825 с. — ISBN 8132221729 . — ISBN 9788132221722 . 6 апреля 2017 года.
Julio Saez-Rodriguez, Miguel P. Rocha, Florentino Fdez-Riverola, Juan F. De Paz Santana. . — Springer, 2014. — Т. 294. — С. 114. — 294 с. — ISBN 3319075810 . — ISBN 9783319075815 . 6 апреля 2017 года.
Gerton Lunter. (англ.) . Оксфорд , Великобритания : Trust Centre for Human Genetics (сентябрь 2012). Дата обращения: 6 апреля 2017. Архивировано из 6 апреля 2017 года.
Elsensohn MH., Leblay N., Dimassi S., Campan-Fournier A., Labalme A., Roucher-Boulez F., Sanlaville D., Lesca G., Bardel C., Roy P. (англ.) // BMC Bioinformatics : журнал. — Лондон, Великобритания: BioMed Central, 2017. — 1 March ( vol. 18 , iss. 1 ). — P. 139 . — ISSN . — doi : . 5 апреля 2017 года.
(англ.) . Broad Institute. Дата обращения: 5 апреля 2017. Архивировано из 5 апреля 2017 года.
Pevsner Jonathan. . — 3-е изд. — John Wiley & Sons, 2015. — С. 401. — 1160 с. — ISBN 9781118581698 . — ISBN 1118581695 . 6 апреля 2017 года.
Ishii K., Kazama Y., Hirano T., Hamada M., Ono Y., Yamada M., Abe T. (англ.) // Genes Genet Syst : журнал. — The Genetics Society of Japan, 2017. — 17 March ( vol. 91 , iss. 4 ). — P. 229—233 . — ISSN . — doi : . — . 5 апреля 2017 года.
(англ.) . Санкт-Петербургский академический университет — научно-образовательный центр нанотехнологий РАН . Дата обращения: 5 апреля 2017. Архивировано из 5 апреля 2017 года.

Литература

Quintero Dino, Bolinches Luis, Lima Marcelo Correia, Pasierb Katarzyna, William dos Santos. . — IBM Redbooks, 2016. — С. 69. — 140 с. — ISBN 0738441635 . — ISBN 9780738441634 .
Nguyen Ken, Guo Xuan, Pan Yi. . — John Wiley & Sons, 2016. — С. 154. — 248 с. — (Wiley Series in Bioinformatics). — ISBN 1118229045 . — ISBN 9781118229040 .
Herzeel Charlotte, Costanza Pascal, Ashby Thomas J., Wuyts Roel. // Exa Science Technical Report. — 2013. — 5 ноября. — С. 2—27 . 6 апреля 2017 года.
Harbers Matthias, Kahl Günter. . — John Wiley & Sons, 2012. — С. 268—269. — 581 с. — (Molecular Plant Biology). — ISBN 352732819X . — ISBN 9783527328192 .