Визуализация данных
- 1 year ago
- 0
- 0
Визуализа́ция да́нных секвени́рования РНК — способ визуального представления данных, полученных с помощью РНК-секвенирования (RNA-seq) в наглядной форме, с помощью которого можно увидеть картирование полученных чтений на геном и анализировать уровень экспрессии гена . Существует множество программ, позволяющих осуществить визуализацию.
РНК-секвенирование (RNA-seq) — технология, позволяющая определять последовательности молекул РНК , причём как кодирующих мРНК , так и некодирующих РНК . В основе метода лежит использование технологии секвенирования нового поколения NGS , которая позволяет устанавливать фрагменты кДНК (комплементарной ДНК) , в которую предварительно переводят выделенную из биологического образца РНК . С разработкой методов NGS стало возможным проще проводить анализ транскриптома , в том числе и транскриптома отдельной клетки , что было ранее невозможно при применении более старого способа с использованием ДНК-микрочипов . Помимо мРНК данная технология позволяет также исследовать миРНК , тРНК и рРНК .
Получив «сырые» данные секвенирования РНК одним из методов NGS, их прежде всего нужно подготовить: удалить плохие по качеству прочтения и обрезать у оставшихся края, содержащие ошибки и последовательности адаптеров, чтобы в итоге получились последовательности длиной примерно 50 нуклеотидов с высоким показателем качества. Стандартной программой для выполнения подобной коррекции является Trimmomatic. Она разработана для операционной системы Linux и запускается из командной строки .
Для проверки качества часто пользуются программой FastQC, которая обращает внимание на несколько критериев, таких как распределение качества прочтенных остатков и процент встречаемости нуклеотидов каждого типа в зависимости от их положения, а также распределение последовательностей по их среднему качеству и GC-составу . Одним из важных показателей является процент уникальных последовательностей (то есть тех, что присутствуют в наборе данных с минимальной степенью дубликации), так как их содержание < 50 % говорит о переамплификации образцов на финальном этапе подготовки, что приводит к потере детекции мРНК, присутствующих в клетках в небольших количествах . Если уровень качества прочтений в целом неудовлетворительный, то повторно проводят коррекцию и чистку «сырых» данных. Если же результаты оказались удовлетворительными, то данные картируют на референсный геном для оценки того, как именно получившиеся прочтения (риды, англ. reads ) распределены .
Для этого существует также огромное количество программ в зависимости от поставленной задачи. Все их можно разделить на две части: для сборки de novo (например Trinity , SOAPdenovo-Trans , Rnnotator и Trans-ABySS ) и для сборки при наличии референсного генома (например STAR , Bowtie2 , TopHat и BWA ). После картирования также необходимо проверить качество получившихся выравниваний такими программами, как Picard , RNA-SeQC , FasrQC и RSeQC . Здесь одним из наиболее важных параметров является процент откартировавшихся прочтений, который отражает точность секвенирования . В норме для генома человека он должен составлять не менее 70 % от всех ридов. Другим ключевым показателем является процент уникальных последовательностей, то есть тех, что специфически откартировались на геном (в одно конкретное место). Если он больше или равен 30 %, можно утверждать, что полученные данные достоверны. И только после того, как очищенные и картированные данные с РНК-секвенирования пройдут последний контроль качества, можно приступать к их нормировке и визуализации .
Данные, получаемые в результате секвенирования РНК, очень велики, могут достигать гига- и терабайтов. Для того, чтобы любой желающий мог визуализировать данные, выложенные в открытом доступе или полученные в своей лаборатории, и существуют программы-визуализаторы. Они позволяют увидеть неровное покрытие, в то время как компьютерные численные методы анализа данных РНК-секвенирования предполагают, что покрытие транскрипта чтениями более-менее равномерное или зависит от нескольких факторов (таких как mappability, GC-содержание), однако это не всегда так. Помимо этого, использование данных программ позволяет подготавливать качественные изображения, приемлемые для использования в научных статьях .
Визуализация данных РНК-секвенирования также упрощает процесс анализа качества данных, уровня дифференциальной экспрессии генов , поиск альтернативного сплайсинга и однонуклеотидных полиморфизмов . Все существующие на данный момент программы-визуализаторы можно подразделить на три типа :
Программа Integrative Genomics Viewer (IGV) была разработана в Broad Institute в 2011 году . Integrative Genomics Viewer позволяет интуитивно в реальном времени исследовать крупномасштабные наборы геномных данных через настольное Java -приложение, веб-приложение IGV-Web, а также igv.js — компонент JavaScript , который может быть встроен в веб-страницы . IGV может быть использован на компьютерах с операционными системами Windows , Mac и Linux , а также на iPad . Эта программа представляет собой мощный инструмент не только для визуализации данных РНК-секвенирования, но и для просмотра других данных секвенирования нового поколения, а также данных, полученных с помощью секвенирования на чипах. Он поддерживает гибкую интеграцию широкого спектра типов геномных данных, включая чтение выравненных последовательностей, мутации , копийность , RNAi-скрины , экспрессию генов, метилирование и геномные аннотации .
Использовать данную программу можно при необходимости анализировать данные загруженные как из локальных, так и из удаленных источников, включая , что позволяет исследователям просматривать свои собственные наборы геномных данных вместе с общедоступными данными. Так как основная проблема работы с геномными данными это их размер, был использован подход, основанный на предварительной обработке данных в различных масштабах. Была разработана пирамидальная структура данных (так называемая data tiling), позволяющая тратить минимум памяти. Для IGV был также разработан специальный файловый формат TDF ( англ. tiled data format ) . Для обработки данных RNA-seq рекомендуются форматы TDF и WIG, однако, помимо этих, дополнительно поддерживаются неиндексированные форматы, такие как GFF и BED, индексированные форматы, такие как BAM и Goby, а также форматы файлов с различным разрешением: bigWig и bigBed .
Программа в своём функционале имеет возможность масштабирования и перемещения по геному на любом уровне детализации — от целого генома до пары оснований. В зависимости от масштаба IGV будет отображать различные параметры, такие как покрытие, выравнивание и т. д. До загрузки данных необходимо сперва загрузить референсный геном, который можно выбрать либо из представленных самим IGV, либо импортировать извне. Для анализа данных выравниваний используется цветовая кодировка, а также уровень прозрачности, что позволяет удобным образом выявлять однонуклеотидные полиморфизмы. Помимо этого, существуют инструменты для идентификации повторов , вставок , делеций и т. д. Предусмотрена возможность взаимодействия с Matlab и программами Microsoft Office .
Sashimi Plot — утилита, позволяющая визуализировать данные анализа РНК-секвенирования для изучения экспрессии изоформ. Данная программа начала разрабатываться в 2011 году и является частью проекта MISO (Mixture of ISOforms), который занимается проблемами альтернативного сплайсинга в данных РНК-секвенирования .
Sashimi Plot можно запускать из командной строки , установив пакет MISO, или использовать через IGV . Программа принимает на вход сырые данные, и строит распределения результатов RNA-seq вокруг экзонов для нескольких выборок, одновременно визуализируя модель гена , на который картируются риды .
Sashimi Plot позволяет строить графики, отражающие уровень экспрессии экзонов и их возможные соединения. Благодаря этому можно сформировать предположения о возможной структуре изоформ гена, а также синтезировать графики распределения длин вставок. Также он показывает оценки MISO для рассматриваемых событий и способен совмещать несколько образцов на одном и том же рисунке. Утилита позволяет создавать изображения, готовые к публикации, и разрешает сохранять картинки в нескольких форматах (включая PDF и PNG ) .
Tablet — программа-визуализатор геномных данных, позволяющая просматривать данные РНК-секвенирования. Данная программа написана на Java и доступна на компьютерах с операционными системами Windows, Mac и Linux, поддерживает цветовую кодировку для построения выравниваний и форматы данных ACE, AFG, MAQ, SOAP2, SAM , BAM, FASTA , FASTQ и GFF3 . Tablet была разработана специально для обработки данных, получаемых с помощью технологий второго поколения секвенирования в 2009 году . Последняя версия программы была выпущена в 2017 году .
Tablet позволяет сопоставлять транскриптомные данные с референсным геномом для оценки существующих моделей генов, например границ интронов и экзонов в эукариотах. Программа позволяет визуально оценивать вероятность альтернативного сплайсинга, а также может использоваться для поиска SNP (однонуклеотидных полиморфизмов) на основании данных RNA-seq .
RNAseqViewer предназначена для визуализации одного или нескольких образцов РНК-секвенирования. Программа была разработана в 2013 году. Она доступна на трех языках ( английский , китайский или французский ) и совместима с операционными системами Windows, Ubuntu , Debian , а также возможен запуск через консоль .
Основная задача — визуализация уровня экспрессии генов и альтернативного сплайсинга. Интерфейс позволяет плавно перемещаться по геному с помощью мыши, клавиатуры или кнопок управления программы, также возможно обращение к конкретной точке генома через координаты или название гена .
Программа имеет инновационный подход к представлению транскрипционных данных. На вход программа принимает 7 типов файловых форматов. В зависимости от формата программа может визуализировать тепловую карту (SAM/BAM), связи между ридами (BED), нуклеотиды (FASTA), аннотацию генов (RefFlat/GTF) и гистограмму экспрессии (Wiggle), а также позволяет осуществлять просмотр всего транскриптома (GFF). Программа предоставляет возможность экспортировать данные во множество различных форматов, в том числе и PDF .
Integrated Genome Browser (IGB) — программа, разработанная компанией Affymetrix в 2004 году, позволяющая просматривать данные РНК-секвенирования и ChIP-секвенирования вдоль аннотации генома . IGB была создана на основе Java библиотеки Genoviz SDK, она совместима с операционными системами UNIX , Linux, Mac и Windows .
CBrowse — инструмент для визуализации и анализа, основанный на использовании форматов SAM или BAM. Программа была разработана в лаборатории Liang в 2012 году . На официальном сайте можно скачать программу, а также найти видеоролик о ее установке и использовании, инструкцию и примеры вывода каждой команды. На вход программе необходимо передать файл с последовательностью контигов , а также соответствующий SAM/BAM файл. Она обрабатывает входные данные, проводит поиск однонуклеотидных полиморфизмов и повторов, создает изображение, JSON -, MySQL -совместимые файлы, которые могут быть использованы в других программах .
Непосредственно за визуализацию отвечает программа Alignment Viewer, которая позволяет визуализировать выравнивание последовательностей в различном масштабе (от просмотра целых последовательностей до отдельных нуклеотидов), причём с различной цветовой кодировкой различий в нуклеотидных позициях .
Помимо этого существует еще 4 инструмента для анализа :
svist4get — программа для визуализации данных высокопроизводительного секвенирования, в том числе RNA-seq. Разработана в 2019 году. Поддерживается операционной системой Linux. Сама программа написана на языке программирования Python 3 и позволяет получать наглядные изображения для публикации в научных журналах .
svist4get можно использовать как инструмент командной строки, а также в режиме API . Инструмент использует визуализацию в векторной графике и поддерживает широкую кастомизацию . Удобен еще и тем, что позволяет на одном изображении отобразить данные из разных биологических образцов и полученные разными методами .