Interested Article - Визуализация данных секвенирования РНК

Визуализа́ция да́нных секвени́рования РНК — способ визуального представления данных, полученных с помощью РНК-секвенирования (RNA-seq) в наглядной форме, с помощью которого можно увидеть картирование полученных чтений на геном и анализировать уровень экспрессии гена . Существует множество программ, позволяющих осуществить визуализацию.

РНК-секвенирование

РНК-секвенирование (RNA-seq) — технология, позволяющая определять последовательности молекул РНК , причём как кодирующих мРНК , так и некодирующих РНК . В основе метода лежит использование технологии секвенирования нового поколения NGS , которая позволяет устанавливать фрагменты кДНК (комплементарной ДНК) , в которую предварительно переводят выделенную из биологического образца РНК . С разработкой методов NGS стало возможным проще проводить анализ транскриптома , в том числе и транскриптома отдельной клетки , что было ранее невозможно при применении более старого способа с использованием ДНК-микрочипов . Помимо мРНК данная технология позволяет также исследовать миРНК , тРНК и рРНК .

Подготовка и картирование данных секвенирования РНК

Получив «сырые» данные секвенирования РНК одним из методов NGS, их прежде всего нужно подготовить: удалить плохие по качеству прочтения и обрезать у оставшихся края, содержащие ошибки и последовательности адаптеров, чтобы в итоге получились последовательности длиной примерно 50 нуклеотидов с высоким показателем качества. Стандартной программой для выполнения подобной коррекции является Trimmomatic. Она разработана для операционной системы Linux и запускается из командной строки .

Для проверки качества часто пользуются программой FastQC, которая обращает внимание на несколько критериев, таких как распределение качества прочтенных остатков и процент встречаемости нуклеотидов каждого типа в зависимости от их положения, а также распределение последовательностей по их среднему качеству и GC-составу . Одним из важных показателей является процент уникальных последовательностей (то есть тех, что присутствуют в наборе данных с минимальной степенью дубликации), так как их содержание < 50 % говорит о переамплификации образцов на финальном этапе подготовки, что приводит к потере детекции мРНК, присутствующих в клетках в небольших количествах . Если уровень качества прочтений в целом неудовлетворительный, то повторно проводят коррекцию и чистку «сырых» данных. Если же результаты оказались удовлетворительными, то данные картируют на референсный геном для оценки того, как именно получившиеся прочтения (риды, англ. reads ) распределены .

Для этого существует также огромное количество программ в зависимости от поставленной задачи. Все их можно разделить на две части: для сборки de novo (например Trinity , SOAPdenovo-Trans , Rnnotator и Trans-ABySS ) и для сборки при наличии референсного генома (например STAR , Bowtie2 , TopHat и BWA ). После картирования также необходимо проверить качество получившихся выравниваний такими программами, как Picard , RNA-SeQC , FasrQC и RSeQC . Здесь одним из наиболее важных параметров является процент откартировавшихся прочтений, который отражает точность секвенирования . В норме для генома человека он должен составлять не менее 70 % от всех ридов. Другим ключевым показателем является процент уникальных последовательностей, то есть тех, что специфически откартировались на геном (в одно конкретное место). Если он больше или равен 30 %, можно утверждать, что полученные данные достоверны. И только после того, как очищенные и картированные данные с РНК-секвенирования пройдут последний контроль качества, можно приступать к их нормировке и визуализации .

Визуализация данных секвенирования РНК

Данные, получаемые в результате секвенирования РНК, очень велики, могут достигать гига- и терабайтов. Для того, чтобы любой желающий мог визуализировать данные, выложенные в открытом доступе или полученные в своей лаборатории, и существуют программы-визуализаторы. Они позволяют увидеть неровное покрытие, в то время как компьютерные численные методы анализа данных РНК-секвенирования предполагают, что покрытие транскрипта чтениями более-менее равномерное или зависит от нескольких факторов (таких как mappability, GC-содержание), однако это не всегда так. Помимо этого, использование данных программ позволяет подготавливать качественные изображения, приемлемые для использования в научных статьях .

Визуализация данных РНК-секвенирования также упрощает процесс анализа качества данных, уровня дифференциальной экспрессии генов , поиск альтернативного сплайсинга и однонуклеотидных полиморфизмов . Все существующие на данный момент программы-визуализаторы можно подразделить на три типа :

  • Геномные браузеры . Это онлайн-серверы, позволяющие загружать данные и обращаться к уже существующим (в открытом доступе), например, UCSC Genome Browser и Zenbu.
  • Автономные приложения . Устанавливаются на пользовательский компьютер или локальный сервер. Централизованно хранят большое количество данных. Например, Integrative Genomics Viewer, Integrated Genome Browser с графическим пользовательским интерфейсом и ASCIIGenome с запуском из консоли .
  • Гибридные программы . Предоставляют функциональность геномных браузеров как в виде онлайн-сервера, так и в виде автономного приложения. Типичный пример: BioUML.

Программы для визуализации данных секвенирования РНК

Integrative Genomics Viewer

Программа Integrative Genomics Viewer (IGV) была разработана в Broad Institute в 2011 году . Integrative Genomics Viewer позволяет интуитивно в реальном времени исследовать крупномасштабные наборы геномных данных через настольное Java -приложение, веб-приложение IGV-Web, а также igv.js — компонент JavaScript , который может быть встроен в веб-страницы . IGV может быть использован на компьютерах с операционными системами Windows , Mac и Linux , а также на iPad . Эта программа представляет собой мощный инструмент не только для визуализации данных РНК-секвенирования, но и для просмотра других данных секвенирования нового поколения, а также данных, полученных с помощью секвенирования на чипах. Он поддерживает гибкую интеграцию широкого спектра типов геномных данных, включая чтение выравненных последовательностей, мутации , копийность , RNAi-скрины , экспрессию генов, метилирование и геномные аннотации .

Использовать данную программу можно при необходимости анализировать данные загруженные как из локальных, так и из удаленных источников, включая , что позволяет исследователям просматривать свои собственные наборы геномных данных вместе с общедоступными данными. Так как основная проблема работы с геномными данными это их размер, был использован подход, основанный на предварительной обработке данных в различных масштабах. Была разработана пирамидальная структура данных (так называемая data tiling), позволяющая тратить минимум памяти. Для IGV был также разработан специальный файловый формат TDF ( англ. tiled data format ) . Для обработки данных RNA-seq рекомендуются форматы TDF и WIG, однако, помимо этих, дополнительно поддерживаются неиндексированные форматы, такие как GFF и BED, индексированные форматы, такие как BAM и Goby, а также форматы файлов с различным разрешением: bigWig и bigBed .

Программа в своём функционале имеет возможность масштабирования и перемещения по геному на любом уровне детализации — от целого генома до пары оснований. В зависимости от масштаба IGV будет отображать различные параметры, такие как покрытие, выравнивание и т. д. До загрузки данных необходимо сперва загрузить референсный геном, который можно выбрать либо из представленных самим IGV, либо импортировать извне. Для анализа данных выравниваний используется цветовая кодировка, а также уровень прозрачности, что позволяет удобным образом выявлять однонуклеотидные полиморфизмы. Помимо этого, существуют инструменты для идентификации повторов , вставок , делеций и т. д. Предусмотрена возможность взаимодействия с Matlab и программами Microsoft Office .

Sashimi Plot

Скриншот работы Sashimi Plot, запущенной через IGV

Sashimi Plot — утилита, позволяющая визуализировать данные анализа РНК-секвенирования для изучения экспрессии изоформ. Данная программа начала разрабатываться в 2011 году и является частью проекта MISO (Mixture of ISOforms), который занимается проблемами альтернативного сплайсинга в данных РНК-секвенирования .

Sashimi Plot можно запускать из командной строки , установив пакет MISO, или использовать через IGV . Программа принимает на вход сырые данные, и строит распределения результатов RNA-seq вокруг экзонов для нескольких выборок, одновременно визуализируя модель гена , на который картируются риды .

Sashimi Plot позволяет строить графики, отражающие уровень экспрессии экзонов и их возможные соединения. Благодаря этому можно сформировать предположения о возможной структуре изоформ гена, а также синтезировать графики распределения длин вставок. Также он показывает оценки MISO для рассматриваемых событий и способен совмещать несколько образцов на одном и том же рисунке. Утилита позволяет создавать изображения, готовые к публикации, и разрешает сохранять картинки в нескольких форматах (включая PDF и PNG ) .

Tablet

Скриншот работы программы Tablet

Tablet — программа-визуализатор геномных данных, позволяющая просматривать данные РНК-секвенирования. Данная программа написана на Java и доступна на компьютерах с операционными системами Windows, Mac и Linux, поддерживает цветовую кодировку для построения выравниваний и форматы данных ACE, AFG, MAQ, SOAP2, SAM , BAM, FASTA , FASTQ и GFF3 . Tablet была разработана специально для обработки данных, получаемых с помощью технологий второго поколения секвенирования в 2009 году . Последняя версия программы была выпущена в 2017 году .

Tablet позволяет сопоставлять транскриптомные данные с референсным геномом для оценки существующих моделей генов, например границ интронов и экзонов в эукариотах. Программа позволяет визуально оценивать вероятность альтернативного сплайсинга, а также может использоваться для поиска SNP (однонуклеотидных полиморфизмов) на основании данных RNA-seq .

RNAseqViewer

RNAseqViewer предназначена для визуализации одного или нескольких образцов РНК-секвенирования. Программа была разработана в 2013 году. Она доступна на трех языках ( английский , китайский или французский ) и совместима с операционными системами Windows, Ubuntu , Debian , а также возможен запуск через консоль .

Основная задача — визуализация уровня экспрессии генов и альтернативного сплайсинга. Интерфейс позволяет плавно перемещаться по геному с помощью мыши, клавиатуры или кнопок управления программы, также возможно обращение к конкретной точке генома через координаты или название гена .

Программа имеет инновационный подход к представлению транскрипционных данных. На вход программа принимает 7 типов файловых форматов. В зависимости от формата программа может визуализировать тепловую карту (SAM/BAM), связи между ридами (BED), нуклеотиды (FASTA), аннотацию генов (RefFlat/GTF) и гистограмму экспрессии (Wiggle), а также позволяет осуществлять просмотр всего транскриптома (GFF). Программа предоставляет возможность экспортировать данные во множество различных форматов, в том числе и PDF .

Integrated Genome Browser

Скриншот работы программы IGB

Integrated Genome Browser (IGB) — программа, разработанная компанией Affymetrix в 2004 году, позволяющая просматривать данные РНК-секвенирования и ChIP-секвенирования вдоль аннотации генома . IGB была создана на основе Java библиотеки Genoviz SDK, она совместима с операционными системами UNIX , Linux, Mac и Windows .

CBrowse

CBrowse — инструмент для визуализации и анализа, основанный на использовании форматов SAM или BAM. Программа была разработана в лаборатории Liang в 2012 году . На официальном сайте можно скачать программу, а также найти видеоролик о ее установке и использовании, инструкцию и примеры вывода каждой команды. На вход программе необходимо передать файл с последовательностью контигов , а также соответствующий SAM/BAM файл. Она обрабатывает входные данные, проводит поиск однонуклеотидных полиморфизмов и повторов, создает изображение, JSON -, MySQL -совместимые файлы, которые могут быть использованы в других программах .

Непосредственно за визуализацию отвечает программа Alignment Viewer, которая позволяет визуализировать выравнивание последовательностей в различном масштабе (от просмотра целых последовательностей до отдельных нуклеотидов), причём с различной цветовой кодировкой различий в нуклеотидных позициях .

Помимо этого существует еще 4 инструмента для анализа :

  • Contig viewer — программа для просмотра контигов, предоставляет общую информацию о сборке, также как и об индивидуальном контиге.
  • Sequence viewer — программа-просмотрщик, позволяет пользователям искать нуклеотидные последовательности в контигах.
  • Polymorphism Viewer — программа, предназначенная для поиска полиморфизмов (однонуклеотидные полиморфизмы, а также одиночные вставки/делеции и другие полиморфизмы), она показывает их координаты и частоту в каждом контиге.
  • SSR Viewer — программа, обеспечивающая поиск простых повторов в последовательности в каждом контиге (повтор с размером 1-12 нуклеотидов, причём как с идеальным соответствием, так и с неполным совпадением).

svist4get

svist4get — программа для визуализации данных высокопроизводительного секвенирования, в том числе RNA-seq. Разработана в 2019 году. Поддерживается операционной системой Linux. Сама программа написана на языке программирования Python 3 и позволяет получать наглядные изображения для публикации в научных журналах .

svist4get можно использовать как инструмент командной строки, а также в режиме API . Инструмент использует визуализацию в векторной графике и поддерживает широкую кастомизацию . Удобен еще и тем, что позволяет на одном изображении отобразить данные из разных биологических образцов и полученные разными методами .

Другие

  • Artemis — геномный браузер и программа для аннотирования, визуализирующая данные РНК-секвенирования и позволяющая просмотреть белковую последовательность в 6 возможных рамках считывания . Написана на языке программирования Java и устанавливается на операционные системы UNIX, Macintosh и Windows .
  • Apollo — программа для визуализации и аннотирования, удобна для использования несколькими людьми — позволяет синхронизировать данные между ними .
  • BamView — позволяет просматривать BAM-файлы .
  • Degust — интерактивный инструмент для визуализации данных дифференциальной экспрессии генов. Он не показывает, как именно прочтения откартировались на референсный геном, но позволяет наглядно по спектру показателей изучить полученные данные. Работает с входными данными в CSV формате .
  • GBrowse — пакет программ, которые позволяют визуализировать данные и анализировать их. Позволяет на одном экране одновременно отображать как расположение интересующего участка на хромосоме, так и более детальное покрытие интересующего участка ридами, а также расположение полиморфизмов и GC-состав .
  • GenomeView — автономная программа визуализатор и редактор, позволяющая работать с множеством форматов файлов .
  • Tbrowse — простой, интуитивно понятный автономный браузер для визуализации данных РНК-секвенирования. Написан на языке программирования Java. Последнее обновление было в 2010 году .
  • Savant — автономный инструмент для визуализации данных высокопроизводительного секвенирования (в том числе и РНК-секвенирования). Функционал визуализации минимален, пригоден для личного пользования, но не для публикаций .
  • Gviz и ggbio — пакеты на языке программирования R , которые позволяют генерировать картинки по данным РНК-секвенирования, пригодные для публикации в научных журналах .
  • fluff и ngs.plot — утилиты, запускаемые с командной строки. Предоставляют расширенный функционал для анализа данных, но минималистичные возможности визуализации конкретных сегментов генома .

Примечания

  1. Haas Brian J , Zody Michael C. (англ.) // Nature Biotechnology. — 2010. — May ( vol. 28 , no. 5 ). — P. 421—423 . — ISSN . — doi : . [ ]
  2. Maher Christopher A. , Kumar-Sinha Chandan , Cao Xuhong , Kalyana-Sundaram Shanker , Han Bo , Jing Xiaojun , Sam Lee , Barrette Terrence , Palanisamy Nallasivam , Chinnaiyan Arul M. (англ.) // Nature. — 2009. — 11 January ( vol. 458 , no. 7234 ). — P. 97—101 . — ISSN . — doi : . [ ]
  3. Nookaew Intawat , Papini Marta , Pornputtapong Natapol , Scalcinati Gionata , Fagerberg Linn , Uhlén Matthias , Nielsen Jens. (англ.) // Nucleic Acids Research. — 2012. — 8 September ( vol. 40 , no. 20 ). — P. 10084—10097 . — ISSN . — doi : . [ ]
  4. Ingolia Nicholas T , Brar Gloria A , Rouskin Silvia , McGeachy Anna M , Weissman Jonathan S. (англ.) // Nature Protocols. — 2012. — 26 July ( vol. 7 , no. 8 ). — P. 1534—1550 . — ISSN . — doi : . [ ]
  5. Bolger Anthony M. , Lohse Marc , Usadel Bjoern. (англ.) // Bioinformatics. — 2014. — 1 April ( vol. 30 , no. 15 ). — P. 2114—2120 . — ISSN . — doi : . [ ]
  6. . www.bioinformatics.babraham.ac.uk. Дата обращения: 27 апреля 2019. 2 марта 2019 года.
  7. Reuther Jacquelyn , Roy Angshumoy , Monzon Federico A. (англ.) // Genomic Applications in Pathology. — 2018. — 11 December. — P. 33—49 . — ISBN 9783319968292 . — doi : . [ ]
  8. Grabherr Manfred G , Haas Brian J , Yassour Moran , Levin Joshua Z , Thompson Dawn A , Amit Ido , Adiconis Xian , Fan Lin , Raychowdhury Raktima , Zeng Qiandong , Chen Zehua , Mauceli Evan , Hacohen Nir , Gnirke Andreas , Rhind Nicholas , di Palma Federica , Birren Bruce W , Nusbaum Chad , Lindblad-Toh Kerstin , Friedman Nir , Regev Aviv. (англ.) // Nature Biotechnology. — 2011. — 15 May ( vol. 29 , no. 7 ). — P. 644—652 . — ISSN . — doi : . [ ]
  9. Xie Y. , Wu G. , Tang J. , Luo R. , Patterson J. , Liu S. , Huang W. , He G. , Gu S. , Li S. , Zhou X. , Lam T.-W. , Li Y. , Xu X. , Wong G. K.-S. , Wang J. (англ.) // Bioinformatics. — 2014. — 13 February ( vol. 30 , no. 12 ). — P. 1660—1666 . — ISSN . — doi : . [ ]
  10. Martin Jeffrey , Bruno Vincent M , Fang Zhide , Meng Xiandong , Blow Matthew , Zhang Tao , Sherlock Gavin , Snyder Michael , Wang Zhong. (англ.) // BMC Genomics. — 2010. — Vol. 11 , no. 1 . — P. 663 . — ISSN . — doi : . [ ]
  11. Robertson Gordon , Schein Jacqueline , Chiu Readman , Corbett Richard , Field Matthew , Jackman Shaun D , Mungall Karen , Lee Sam , Okada Hisanaga Mark , Qian Jenny Q , Griffith Malachi , Raymond Anthony , Thiessen Nina , Cezard Timothee , Butterfield Yaron S , Newsome Richard , Chan Simon K , She Rong , Varhol Richard , Kamoh Baljit , Prabhu Anna-Liisa , Tam Angela , Zhao YongJun , Moore Richard A , Hirst Martin , Marra Marco A , Jones Steven J M , Hoodless Pamela A , Birol Inanc. (англ.) // Nature Methods. — 2010. — 10 October ( vol. 7 , no. 11 ). — P. 909—912 . — ISSN . — doi : . [ ]
  12. Dobin Alexander , Davis Carrie A. , Schlesinger Felix , Drenkow Jorg , Zaleski Chris , Jha Sonali , Batut Philippe , Chaisson Mark , Gingeras Thomas R. (англ.) // Bioinformatics. — 2012. — 25 October ( vol. 29 , no. 1 ). — P. 15—21 . — ISSN . — doi : . [ ]
  13. Langmead Ben , Salzberg Steven L. (англ.) // Nature Methods. — 2012. — 4 March ( vol. 9 , no. 4 ). — P. 357—359 . — ISSN . — doi : . [ ]
  14. Trapnell Cole , Pachter Lior , Salzberg Steven L. (англ.) // Bioinformatics. — 2009. — 16 March ( vol. 25 , no. 9 ). — P. 1105—1111 . — ISSN . — doi : . [ ]
  15. . bio-bwa.sourceforge.net. Дата обращения: 27 апреля 2019. 1 мая 2013 года.
  16. . broadinstitute.github.io. Дата обращения: 27 апреля 2019. 14 августа 2018 года.
  17. DeLuca David S. , Levin Joshua Z. , Sivachenko Andrey , Fennell Timothy , Nazaire Marc-Danie , Williams Chris , Reich Michael , Winckler Wendy , Getz Gad. (англ.) // Bioinformatics. — 2012. — 25 April ( vol. 28 , no. 11 ). — P. 1530—1532 . — ISSN . — doi : . [ ]
  18. Wang Liguo , Wang Shengqin , Li Wei. (англ.) // Bioinformatics. — 2012. — 27 June ( vol. 28 , no. 16 ). — P. 2184—2185 . — ISSN . — doi : . [ ]
  19. Rogé Xavier , Zhang Xuegong. (англ.) // Bioinformatics. — 2013. — 8 November ( vol. 30 , no. 6 ). — P. 891—892 . — ISSN . — doi : . [ ]
  20. Egorov Artyom A. , Sakharova Ekaterina A. , Anisimova Aleksandra S. , Dmitriev Sergey E. , Gladyshev Vadim N. , Kulakovskiy Ivan V. (англ.) // BMC Bioinformatics. — 2019. — 6 March ( vol. 20 , no. 1 ). — ISSN . — doi : . [ ]
  21. Robinson James T , Thorvaldsdóttir Helga , Winckler Wendy , Guttman Mitchell , Lander Eric S , Getz Gad , Mesirov Jill P. (англ.) // Nature Biotechnology. — 2011. — January ( vol. 29 , no. 1 ). — P. 24—26 . — ISSN . — doi : . [ ]
  22. . igv.org. Дата обращения: 27 апреля 2019. 21 апреля 2019 года.
  23. . software.broadinstitute.org. Дата обращения: 2 мая 2019. 29 ноября 2018 года.
  24. Thorvaldsdottir H. , Robinson J. T. , Mesirov J. P. (англ.) // Briefings in Bioinformatics. — 2012. — 19 April ( vol. 14 , no. 2 ). — P. 178—192 . — ISSN . — doi : . [ ]
  25. . miso.readthedocs.io. Дата обращения: 27 апреля 2019. 3 августа 2018 года.
  26. . software.broadinstitute.org. Дата обращения: 27 апреля 2019. 10 марта 2019 года.
  27. Milne I. , Bayer M. , Cardle L. , Shaw P. , Stephen G. , Wright F. , Marshall D. (англ.) // Bioinformatics. — 2009. — 4 December ( vol. 26 , no. 3 ). — P. 401—402 . — ISSN . — doi : . [ ]
  28. (англ.) . Дата обращения: 27 апреля 2019. 21 апреля 2019 года.
  29. (англ.) . Дата обращения: 2 мая 2019. 21 апреля 2019 года.
  30. . bioinfo.au.tsinghua.edu.cn. Дата обращения: 2 мая 2019. 18 октября 2018 года.
  31. Nicol J. W. , Helt G. A. , Blanchard S. G. , Raja A. , Loraine A. E. (англ.) // Bioinformatics. — 2009. — 4 August ( vol. 25 , no. 20 ). — P. 2730—2731 . — ISSN . — doi : . [ ]
  32. . bioviz.org. Дата обращения: 2 мая 2019. 18 октября 2018 года.
  33. Li Pei , Ji Guoli , Dong Min , Schmidt Emily , Lenox Douglas , Chen Liangliang , Liu Qi , Liu Lin , Zhang Jie , Liang Chun. (англ.) // Bioinformatics. — 2012. — 12 July ( vol. 28 , no. 18 ). — P. 2382—2384 . — ISSN . — doi : . [ ]
  34. . bioinfolab.muohio.edu. Дата обращения: 2 мая 2019. 19 мая 2018 года.
  35. (англ.) . The Artemis Software. Дата обращения: 3 мая 2019. 27 апреля 2019 года.
  36. (англ.) . Apollo. Дата обращения: 3 мая 2019. 2 апреля 2019 года.
  37. (англ.) . bamview.sourceforge.net. Дата обращения: 3 мая 2019. 15 декабря 2018 года.
  38. . victorian-bioinformatics-consortium.github.io. Дата обращения: 3 мая 2019. 25 июля 2018 года.
  39. . gmod.org. Дата обращения: 3 мая 2019. 28 марта 2019 года.
  40. (англ.) . genomeview.org. Дата обращения: 3 мая 2019. 2 апреля 2019 года.
  41. code.google.com. Дата обращения: 3 мая 2019. 27 апреля 2019 года.
  42. . compbio.cs.toronto.edu. Дата обращения: 3 мая 2019. 27 апреля 2019 года.
  43. (англ.) . Bioconductor. Дата обращения: 3 мая 2019.
  44. (англ.) . Bioconductor. Дата обращения: 3 мая 2019.
  45. . fluff.readthedocs.io. Дата обращения: 3 мая 2019. 27 апреля 2019 года.
  46. . — 2019. 11 июня 2018 года.
Источник —

Same as Визуализация данных секвенирования РНК