Interested Article - Анализ обогащения по функциональной принадлежности

Ана́лиз обогащéния по функциона́льной принадлéжности ( англ. gene set enrichment analysis, GSEA ) — совокупность методов для ассоциации набора генов с изменением фенотипа . Для формализации существующих данных о фенотипе такие методы часто используют базы данных предварительно аннотированных наборов генов (например, термины проекта Gene ontology (GO): молекулярные функции, биологические процессы или клеточные компоненты ). Результатом применения метода (выдачей программы) в этом случае является множество преаннотированных наборов, частота встречаемости которых во входном наборе статистически значимо отличается от фоновой (например, частоты во всём геноме или в другом наборе генов). Такие преаннотированные наборы называют перепредставленными (если частота выше фоновой) или недопредставленными (если частота ниже фоновой).

Важным нововведением GSEA по сравнению с более ранними методами анализа является возможность анализировать данные не только по отдельным генам независимо, но и учитывать функциональные связи генов между собой. В некоторых случаях, например при слабом изменении индивидуальной экспрессии отдельных генов, применение GSEA приводит к повышению чувствительности метода и получению более полной картины дифференциальной экспрессии .

Данный подход был разработан в 2002-2003 годах независимо несколькими группами ученых и получил широкое распространение. Тогда же были предложены первые программы для его реализации .

Отметим, что термин GSEA употребляется в нескольких значениях: как название широкого класса методов, обсуждаемого в данной статье , как название более узкого класса методов , как название отдельной программы .

Предыстория

С появлением проекта «Геном человека» возникла проблема, как интерпретировать и анализировать большой объём новой информации старыми методами. В связи с возникновением методов анализа экспрессии генов, изменяющуюся в ткани у людей с заболеваниями. Данные микрочипов использовались для классификации тканей по молекулярным характеристикам и для создания гипотез о механизмах заболевания, например, в изучении рака , где часто наблюдались большие изменения в экспрессии отдельных генов . Однако, когда изменения в экспрессии генов не сильно выражены, большое количество проверенных генов, высокая вариабельность между отдельными лицами и ограниченные размеры выборки, характерные для исследований человека, затрудняют отделение истинных различий от шума. Множество генов могут участвовать в одном метаболическом пути , и поэтому суммарное изменение экспрессии внутри группы генов приводит к разнице в фенотипическом выражении. Анализ представленности функциональных групп генов фокусируется на изменениях экспрессии в группах генов, таким образом, этот метод позволяет решить проблему поиска небольших изменений экспрессии отдельных генов .

Подходы

Для формализации и решения задачи GSEA используются методы математической статистики : оценивается значимость некоторой cтатистики , рассчитанной для каждой предварительно аннотированной группы .

Обобщённый алгоритм GSEA

Обобщённый алгоритм GSEA включает следующие этапы :

Вычисление статистики предварительно аннотированных групп генов — используется один из двух путей:
- Глобальный тест — построение статистики по входному набору непосредственно для каждой предварительно аннотированной группы, например, на основе _en или _en
- Объединение статистик генов — построение статистики для отдельных генов, на основе которой строится статистика групп. Тогда последовательно определяются:
  1. Статистика генов — в зависимости от типа исходных данных возможен выбор разных статистик для генов, например, отношение сигнал/шум в эксперименте или _en , полученное из предварительной обработки
  2. Трансформация статистики генов — статистика генов может быть трансформирована: так, может быть выполнена статистики или в зависимости от значения статистики отобрано некоторое подмножество всех генов для дальнейшего анализа
  3. Статистика набора генов — статистики генов, полученные выше, комбинируются для построения статистики предварительно аннотированных наборов генов: например, статистика группы определяется как среднее значение статистики генов, которые в неё входят
Оценка значимости — формулирование для построенной статистики основной и альтернативной гипотез , оценка значимости статистик. Поскольку таким образом тестируется большое число гипотез (о пере-/недопредставленности каждой предварительно аннотированной группы генов), оценка значимости часто включает поправку на множественное тестирование .

Классификация методов

С точки зрения обобщенного алгоритма, рассмотренного выше, отличие между методами GSEA состоит в последовательности процедур, используемых на разных этапах. Авторы обобщенного алгоритма сравнили 261 комбинацию процедур ; авторы обзора 2008 года описывают 68 отдельных программ, реализующих эти методы. В этом обзоре предлагается классификация методов на три основных категории: анализ уникального обогащения (SEA), анализ обогащения набора генов (GSEA — в узком смысле) и анализ модульного обогащения (MEA), при этом некоторые программы относятся к нескольким классам. Отметим, что не существует общепринятой формальной постановки задачи GSEA (в широком смысле), что затрудняет оценку результатов и сравнение методов .

Анализ уникального обогащения

Анализ уникального обогащения ( англ. singular enrichment analysis ) — методы, которые получают на вход кандидатные гены — гены, относящиеся к некоторой подвыборке генов, которая интересует исследователей (например, гены, достоверно изменившие экспрессию ( статистика гена ) на заданном уровне значимости), а уже затем для этих генов определяется перепредставленность функциональных групп. Таким образом, эти методы предоставляют исследователю возможность выбрать статистику генов и провести трансформацию — выбрать гены в зависимости от значения статистики, затем строится статистика предварительно аннотированного набора на основе количества генов набора среди кандидатных генов. В качестве статистических моделей используются гипергеометрическое распределение , биномиальное распределение (используется для больших выборок), χ² , точный тест Фишера . В большинстве случаев различия между статистическими моделями незначительны .

Это простой и эффективный метод, но результат зависит от параметров критерия выбора кандидатных генов. Кроме того, из-за огромного количества генов (типичный результат эксперимента — несколько десятков тысяч профилей экспрессии ) взаимосвязи между предварительно аннотированными группами могут теряться .

Программы, основанные на этом методе: GoStat, GoMiner, GOTM, BinGO, GOtoolBox, GFinder, Onto-Express, GARBAN, FatiGO, BayGO .

Анализ обогащения набора генов

Анализ обогащения набора генов ( англ. gene set enrichment analysis ) — альтернативные подходы, включающие ранжирование ( трансформацию ) всех генов в соответствии со степенью проявления признака ( статистика гена ), по которому происходит анализ. В этом случае рассматривается все множество генов, а не только самые значимые гены. Используются такие статистики групп , как статистика Колмогорова , t-статистика Стьюдента , U-статистика Манна-Уитни , медиана рангов группы .

Главное преимущество — этот метод использует всю информацию, полученную из экспериментов. Однако в качестве входной информации он требует определения функциональной группы для каждого гена, что часто бывает сложной задачей. Предположение, лежащее в основе метода, что гены с противоположных концов списка вносят больший вклад в биологическую функцию, не всегда верно, регуляторные белки часто изменяют свою экспрессию незначительно, но это приводит к большим последствиям .

Программы, основанные на этом методе: GSEA (название программы), CapMap, FatiScan, ADGO, ermineJ, PAGE, iGA, GO-Mapper, GOdist, FINA, T-profiler, MetaGP .

Анализ модульного обогащения

Анализ модульного обогащения ( англ. modular enrichment analysis ) — методы, которые принимают на вход, как и анализ уникального обогащения, список кандидатных генов, но, в отличие от него, при оценке значимости перепредставленности (то есть на этапах определения статистики набора генов и оценки значимости ) рассматривает взаимосвязь терминов GO. Для этого используется, например, _en . Таким образом может быть описана функция входного набора генов, не соответствующая отдельному термину. Ограничением метода является то, что гены без сильных отношений с соседями будут исключены из анализа .

Программы, основанные на этом методе: ADGO, GeneCodis, ProfCom, topGO, Ontologizer, POSOC, DAVID, GoToolBox .

Области применения

Эти методы используют для анализа результатов экспериментов, которые представляют собой некоторый список генов, отличный от всей выборки генов. Например, анализ обогащения по функциональной принадлежности часто используют для генов, дифференциально экспрессирующихся в разных условиях, в этом случае задача состоит в том, чтобы извлечь из информацию о каких-либо биологических механизмах.

Важной областью применения данного метода является полногеномный поиск ассоциаций — сравнение больного и здорового генотипов в попытке найти однонуклеотидные полиморфизмы (SNP) , которые перепредставлены в геноме больного и могут быть ассоциированы с данным состоянием. Данное применение анализа представленности функциональных групп генов не только помогает в открытии SNP, ассоциированных с заболеваниями, но и помогает осветить соответствующие пути и механизмы заболеваний . Например, GSEA использовался для изучения таких заболеваний, как самопроизвольные преждевременные роды , рак почки , депрессия , неоспороз , шизофрения , и многих других.

Примечания

Sun G. P. , Jiang T. , Xie P. F. , Lan J. , Sun G. P. , Jiang T. , Xie P. F. , Lan J. // Молекулярная биология. — 2016. — Т. 50 , № 1 . — С. 143—150 . — ISSN . — doi : . [ ]
↑ Hung J.-H. , Yang T.-H. , Hu Z. , Weng Z. , DeLisi C. (англ.) // Briefings in Bioinformatics. — 2011. — 7 September ( vol. 13 , no. 3 ). — P. 281—291 . — ISSN . — doi : . [ ]
↑ Mooney Michael A. , Wilmot Beth. (англ.) // American Journal of Medical Genetics Part B: Neuropsychiatric Genetics. — 2015. — 8 June ( vol. 168 , no. 7 ). — P. 517—527 . — ISSN . — doi : . [ ]
↑ Subramanian A. , Tamayo P. , Mootha V. K. , Mukherjee S. , Ebert B. L. , Gillette M. A. , Paulovich A. , Pomeroy S. L. , Golub T. R. , Lander E. S. , Mesirov J. P. (англ.) // Proceedings of the National Academy of Sciences. — 2005. — 30 September ( vol. 102 , no. 43 ). — P. 15545—15550 . — ISSN . — doi : . [ ]
Rhodes Daniel R , Chinnaiyan Arul M. (англ.) // Nature Genetics. — 2005. — June ( vol. 37 , no. S6 ). — P. S31—S37 . — ISSN . — doi : . [ ]
Doniger Scott W , Salomonis Nathan , Dahlquist Kam D , Vranizan Karen , Lawlor Steven C , Conklin Bruce R. (англ.) // Genome Biology. — 2003. — Vol. 4 , no. 1 . — P. R7 . — ISSN . — doi : . [ ]
Zeeberg Barry R , Feng Weimin , Wang Geoffrey , Wang May D , Fojo Anthony T , Sunshine Margot , Narasimhan Sudarshan , Kane David W , Reinhold William C , Lababidi Samir , Bussey Kimberly J , Riss Joseph , Barrett J , Weinstein John N. (англ.) // Genome Biology. — 2003. — Vol. 4 , no. 4 . — P. R28 . — ISSN . — doi : . [ ]
↑ Mootha Vamsi K , Lindgren Cecilia M , Eriksson Karl-Fredrik , Subramanian Aravind , Sihag Smita , Lehar Joseph , Puigserver Pere , Carlsson Emma , Ridderstråle Martin , Laurila Esa , Houstis Nicholas , Daly Mark J , Patterson Nick , Mesirov Jill P , Golub Todd R , Tamayo Pablo , Spiegelman Bruce , Lander Eric S , Hirschhorn Joel N , Altshuler David , Groop Leif C. (англ.) // Nature Genetics. — 2003. — 15 June ( vol. 34 , no. 3 ). — P. 267—273 . — ISSN . — doi : . [ ]
↑ Draghici S. (англ.) // Nucleic Acids Research. — 2003. — 1 July ( vol. 31 , no. 13 ). — P. 3775—3781 . — ISSN . — doi : . [ ]
Al-Shahrour F. , Diaz-Uriarte R. , Dopazo J. (англ.) // Bioinformatics. — 2004. — 22 January ( vol. 20 , no. 4 ). — P. 578—580 . — ISSN . — doi : . [ ]
Volinia S. , Evangelisti R. , Francioso F. , Arcelli D. , Carella M. , Gasparini P. (англ.) // Nucleic Acids Research. — 2004. — 1 July ( vol. 32 , no. Web Server ). — P. W492—W499 . — ISSN . — doi : . [ ]
Golub T. R. (англ.) // Science. — 1999. — 15 October ( vol. 286 , no. 5439 ). — P. 531—537 . — ISSN . — doi : . [ ]
↑ Ackermann Marit , Strimmer Korbinian. (англ.) // BMC Bioinformatics. — 2009. — 3 February ( vol. 10 , no. 1 ). — ISSN . — doi : . [ ]
↑ Huang Da Wei , Sherman Brad T. , Lempicki Richard A. (англ.) // Nucleic Acids Research. — 2008. — 25 November ( vol. 37 , no. 1 ). — P. 1—13 . — ISSN . — doi : . [ ]
Khatri P. , Draghici S. (англ.) // Bioinformatics. — 2005. — 30 June ( vol. 21 , no. 18 ). — P. 3587—3595 . — ISSN . — doi : . [ ]
Holden Marit , Deng Shiwei , Wojnowski Leszek , Kulle Bettina. (англ.) // Bioinformatics. — 2008. — 14 October ( vol. 24 , no. 23 ). — P. 2784—2785 . — ISSN . — doi : . [ ]
Manuck Tracy A. , Watkins Scott , Esplin M. Sean , Parry Samuel , Zhang Heping , Huang Hao , Biggio Joseph R. , Bukowski Radek , Saade George , Andrews William , Baldwin Don , Sadovsky Yoel , Reddy Uma , Ilekis John , Varner Michael W. , Jorde Lynn B. , Yandell Mark. (англ.) // American Journal of Obstetrics and Gynecology. — 2016. — January ( vol. 214 , no. 1 ). — P. S142—S143 . — ISSN . — doi : . [ ]
Maruschke Matthias , Hakenberg Oliver W , Koczan Dirk , Zimmermann Wolfgang , Stief Christian G , Buchner Alexander. (англ.) // International Journal of Urology. — 2013. — 2 May ( vol. 21 , no. 1 ). — P. 46—51 . — ISSN . — doi : . [ ]
Elovainio Marko , Taipale Tuukka , Seppälä Ilkka , Mononen Nina , Raitoharju Emma , Jokela Markus , Pulkki-Råback Laura , Illig Thomas , Waldenberger Melanie , Hakulinen Christian , Hintsa Taina , Kivimäki Mika , Kähönen Mika , Keltikangas-Järvinen Liisa , Raitakari Olli , Lehtimäki Terho. (англ.) // Journal of Psychiatric Research. — 2015. — December ( vol. 71 ). — P. 120—125 . — ISSN . — doi : . [ ]
Nishimura Maki , Tanaka Sachi , Ihara Fumiaki , Muroi Yoshikage , Yamagishi Junya , Furuoka Hidefumi , Suzuki Yutaka , Nishikawa Yoshifumi. (англ.) // Scientific Reports. — 2015. — 21 January ( vol. 5 , no. 1 ). — ISSN . — doi : . [ ]
Hass Johanna , Walton Esther , Wright Carrie , Beyer Andreas , Scholz Markus , Turner Jessica , Liu Jingyu , Smolka Michael N. , Roessner Veit , Sponheim Scott R. , Gollub Randy L. , Calhoun Vince D. , Ehrlich Stefan. (англ.) // Progress in Neuro-Psychopharmacology and Biological Psychiatry. — 2015. — June ( vol. 59 ). — P. 31—39 . — ISSN . — doi : . [ ]