Онтология
- 1 year ago
- 0
- 0
«Генная онтология» ( англ. Gene Ontology , или GO ) — биоинформатический проект, посвященный созданию унифицированной терминологии для аннотации генов и генных продуктов всех биологических видов .
Целью проекта является поддержание и пополнение определённого списка атрибутов генов и их продуктов, составление аннотаций генов и продуктов, разработка инструментов для работы с базой данных проекта, а также для анализа новых экспериментальных данных, в частности, анализ представленности функциональных групп генов . Стоит отметить, что в проекте GO был создан язык разметки для классификации данных (информации о генах и их продуктах, то есть РНК и белках, а также их функцях), который позволяет быстро находить систематизированную информацию о продуктах генов .
«Генная онтология» является частью более масштабного проекта по классификации — «Открытые биомедицинские онтологии» ( OBO ) .
Онтологии в информатике используются для формализации определенных областей знаний с помощью системы данных об объектах реального мира и связях между ними (т. н. база знаний ). В биологии и смежных дисциплинах возникла проблема отсутствия универсального стандарта терминологии. Термины , выражающие сходные понятия , но применяемые для разных биологических видов , разных областей исследований или даже внутри разных групп учёных, могут иметь принципиально разное значение, что затрудняет обмен данными. В связи с этим задачей проекта «Генная онтология» стало создание онтологии терминов, отражающих свойства генов и их продуктов и применимых к любым организмам .
«Генная онтология» была создана в 1998 году консорциумом ученых, изучавших геномы трех модельных организмов : Drosophila melanogaster (плодовая мушка), Mus musculus (мышь) и Saccharomyces cerevisiae (пекарские дрожжи) . Затем многие базы данных для других модельных организмов присоединились к Консорциуму GO, тем самым способствуя не только расширению базы аннотаций, но и созданию сервисов для просмотра и применения данных.
Консорциум GO ( GOC ) — это множество биологических баз данных и исследовательских групп, активно участвующих в проекте «Генная онтология» . К нему относятся несколько баз данных для различных модельных организмов, общие белковые базы данных, группы разработчиков программного обеспечения и редакторы «Генной онтологии».
«Генная онтология» является масштабным и быстро развивающимся проектом. По состоянию на сентябрь 2011 года «Генная онтология» содержала более 33 тысяч терминов и около 12 млн аннотаций генных продуктов, применимых к более 360 тыс. живых организмов . По истечении 2016 года количество терминов превысило 44 тысячи экземпляров, в то время как количество организмов, аннотированных в данной базе знаний, превзошло отметку в 460 тысяч особей
В течение нескольких последних лет Консорциум GO внедрил ряд изменений онтологии для увеличения количества, качества и специфичности аннотаций GO. К 2013 году число аннотаций превысило 96 млн. Качество аннотаций было улучшено посредством автоматизированной проверки качества. Также улучшилась аннотация данных, представленных в базе GO, были добавлены новые термины. . В 2007 году был создан новый сервис , целью которого является интеграция геномных данных из большого количества разрозненных источников, и облегчение вычислительных задач, таких как поиск конкретных геномных областей и осуществление статистических тестов. Изначально проект был создан для интеграции данных для Drosophila, но на данный момент включает большое количество модельных организмов. В последние годы ведется разработка сервиса LEGO (Linked Expressions using the Gene Ontology), позволяющего исследовать взаимодействие различных аннотаций в базе GO,объединяя их в более общие модели генов и их функций .
Следует понимать, что «Генная онтология» описывает комплексные биологические феномены, а не конкретные биологические объекты. База данных «Генной онтологии» включает три независимых словаря :
Каждый термин в «Генной онтологии» имеет ряд атрибутов: уникальный цифровой идентификатор, название, словарь, к которому термин принадлежит, и определение. Термины могут иметь синонимы, которые делятся на точно соответствующие значению термина, более широкие, более узкие и имеющие некоторое отношение к термину. Также могут присутствовать такие атрибуты, как ссылки на источники, на другие базы данных и комментарии по значению и использованию термина .
Онтология построена по принципу ориентированного ациклического графа : каждый термин связан с одним или несколькими другими терминами через различного типа отношения . Выделяют следующие типы отношений :
Пример одного из терминов проекта GO :
id: GO:0043417 name: negative regulation of skeletal muscle tissue regeneration namespace: biological_process def: "Any process that stops, prevents, or reduces the frequency, rate or extent of skeletal muscle regeneration." [GOC:jl] synonym: "down regulation of skeletal muscle regeneration" EXACT [] synonym: "down-regulation of skeletal muscle regeneration" EXACT [] synonym: "downregulation of skeletal muscle regeneration" EXACT [] synonym: "inhibition of skeletal muscle regeneration" NARROW [] is_a: GO:0043416 ! regulation of skeletal muscle tissue regeneration is_a: GO:0048640 ! negative regulation of developmental growth relationship: negatively_regulates GO:0043403 ! skeletal muscle tissue regeneration
В базу данных «Генной онтологии» постоянно вносятся изменения и дополнения как кураторами проекта GO, так и другими исследователями. Предлагаемые поправки пользователей проверяются редакторами проекта и применяются в случае одобрения поправок .
Файл, содержащий всю базу данных , может быть получен в различных форматах на официальном сайте «Генной онтологии», а также термины доступны онлайн с помощью браузера «Генной онтологии» AmiGO. Кроме того, с его помощью возможно извлечение массива данных генных продуктов, относящихся к тому или иному термину. Также на сайте можно скачать карты соответствия терминов GO другим системам классификации .
Аннотирование геномов нацелено на получение информации о свойствах генных продуктов. В аннотациях GO для этого используются термины «Генной онтологии». Члены Консорциума GO выкладывают свои аннотации на сайте «Генной онтологии», где аннотации доступны для прямого скачивания, либо для просмотра в браузере AmiGO .
В аннотации гена содержатся следующие данные: название и идентификатор генного продукта; соответствующий термин GO; тип данных, на которых основана аннотация ( англ. evidence code ); ссылка на источник; а также создатель и дата создания аннотации. Для типов данных, указывающих на достоверность аннотации ( evidence code ), существует особая онтология, относящаяся к проекту ОВО . Она включает различные методы аннотирования: как осуществляемые вручную, так и автоматические. Например :
По данным на сентябрь 2012 года более 99 % всех аннотаций «Генной онтологии» были получены автоматическим путём . Поскольку такие аннотации не проверяются вручную, то Консорциум GO рассматривает их как менее достоверные, и лишь часть из них доступна в браузере AmiGO. Полную базу аннотаций можно скачать на сайте «Генной онтологии».
AmiGO — это веб-приложение (сервис GO), которое позволяет пользователям запрашивать, находить и визуализировать термины GO и аннотации генных продуктов. Кроме того, приложение содержит инструмент BLAST (есть в AmiGO 1, был убран в AmiGO 2), сервисы, позволяющие анализировать большие массивы данных и интерфейс для поиска непосредственно в базе данных GO . AmiGO может быть использован онлайн на сайте «Генной онтологии» для доступа к данным, предоставляемых Консорциумом GO, либо может быть загружен и установлен для локального применения к любой базе данных, построенной по принципу GO. AmiGO 2 является открытым и свободным ПО .
Визуализация представляет возможность пользователю строить граф, характеризующий генную онтологию для конкретного GO термина. Существует два формата ввода данных :
Пример JSON ввода:
{"GO:0002244":{"title": "foo", "body": "bar", "fill": "#ccccff", "font": "#0000ff", "border":"red"}, "GO:0005575":{"title":"alone", "body":""}, "GO:0033060":{}}
Кодирование отношения с помощью цвета:
Отношение | Цвет |
---|---|
is_a | blue |
part_of | lightblue |
develops_from | brown |
regulates | black |
negatively_regulates | red |
positively_regulates | green |
Визуализация термина состоит в построении графа от вершины, представляющей исходный GO термин, до корневой вершины, которая представлена названием одного из трех главных словарей: биологические процессы , молекулярные функции и клеточные компоненты .
Помимо возможности создания графов, отображающих генную онтологию GO термина, в AmiGO также реализованы несколько инструментов, способных дать пользователю представление о данных GO проекта. Среди них :
GOOSE — среда запросов SQL , реализованная в онлайн режиме и доступная пользователям AmiGO сервиса, для создания наборов данных. Данный сервис использует синтаксис SQL для составления различных запросов в базу GO. Также для снижения нагрузки на систему доступны зеркала EBI (Великобритания, Кембридж), Berkeley BOP и Berkeley BOP (lite) (оба находятся в городе Беркли, штат Калифорния).
Кроме непосредственного написания запроса вручную возможно использование шаблонов для частичного упрощения данной задачи. Типичный запрос в базу данных представлен ниже (поиск максимальной глубины дерева для клеточной компоненты) :
SELECT distance as max from graph_path, term WHERE graph_path.term2_id =term.id and term.term_type = 'cellular_component' ORDER BY distance desc limit 1;
База данных в GO имеет сложную структуру и состоит из множества таблиц. Основные базы данных :
Возможны следующие форматы экспорта данных в результате запроса :
PANTHER ( англ. P rotein A nalysis TH rough E volutionary R elationships ) — это огромная база данных генов/белковых семейств и функционально похожих на них подсемейств, которые могут быть использованы для классификации функционального спектра генных продуктов . PANTHER — это часть GO проекта, главной целью которой является классификация белков и их генов.
В PANTHER база данных редактируется не только персоналом проекта, но также и за счет классификационных алгоритмов. Протеины классифицируются в соответствии с их принадлежностью к семействам (и подсемействам), молекулярной функции или биологическому процессу .
Главное применение PANTHER состоит в выяснении функций необъясненных генов любого организма, основанном на их эволюционных взаимоотношениях с генами, о функциях которых есть информация в БД. Используя генные функции, онтологию и статистико-аналитические методы, PANTHER позволяет биологам анализировать большие данные, целые геномы, получаемые с помощью секвенирования или исследования генной экспрессии .
Основные инструменты, доступные на веб-сайте PANTHER :
GO Slimmer — инструмент, позволяющий сопоставить подробные аннотации набора генов с одним или несколькими родительскими терминами более высокого уровня (GO slim терминами). GO slim термин — это урезанные версии GO онтологии, содержащие подмножество терминов всего GO без подробного описания специфичных низкоуровневых терминов.
Использование GO Slimmer позволяет представлять аннотации GO генома, анализировать результаты микромассивов экспрессий или коллекций комплементарных ДНК, когда необходима обширная классификация функций генных продуктов .
Результат работы данного алгоритма представлен тремя колонками :
AmiGO версия данного инструмента написана на Perl скрипте map2slim . Кураторы проекта отмечают, что в настоящее время GO slimmer сервис загружен, и входные данные внушительных размеров могут негативно сказаться на его работе. Время работы сервиса для обработки входных последовательностей ограничено.
BLAST ( англ. B asic L ocal A lignment S earch T ool ) — семейство компьютерных программ, служащих для поиска гомологов белков или нуклеиновых кислот, для которых известна последовательность, при помощи выравнивания. Используя BLAST, исследователь может сравнить имеющуюся у него последовательность с последовательностями из базы данных и найти наиболее сходные с данной, которые будут являться предполагаемыми гомологами.
Реализация данного инструмента в AmiGO 1 представлена в виде пакета WU-BLAST, разработанного Вашингтонским университетом в Сент-Луисе (Washington University in St. Louis).
В AmiGO 2 данный инструмент (GO BLAST) был убран, однако можно воспользоваться поиском в AmiGO . Инструмент позволяет фильтровать результаты поиска по генному продукту, базе данных, таксономической принадлежности, словарю GO, OBO аннотации.
Term Matrix (матрица терминов) — инструмент AmiGO для изучения информации о схожести генной продукции терминов. Результатом его работы является матрица, элементами которой является количество генных продуктов, аннотированных для конкретной пары GO терминов. Для использования функции необходимо ввести список идентификаторов GO, чтобы увидеть совместные аннотации - количество общих генных продуктов, аннотированных по парам терминов. Есть возможность задавать конкретные виды или таксоны. Подцветка тепловой карты может быть осуществлена в виде градации от чёрного к белому, либо используя стандартную палитру карты.
OBO-Edit — это находящийся в открытом доступе редактор онтологий, разработанный и поддерживаемый Консорциумом GO. Он реализован на языке Java и использует подход, основанный на работе с графами , для визуализации и редактирования онтологий. OBO-Edit имеет удобный интерфейс поиска и фильтрации, позволяющий визуализировать и разделять подмножества терминов GO. Интерфейс можно настраивать в соответствии с предпочтениями пользователя. Также OBO-Edit позволяет автоматически создавать новые связи на основе существующих отношений и их свойств. Несмотря на то, что OBO-Edit был разработан для биомедицинских онтологий, он может быть использован для просмотра и редактирования любой онтологии.
PAINT ( англ. P hylogenetic A nnotation and IN ference T ool ) — JAVA-приложение, являющееся частью проекта аннотации геномов (Reference Genome Annotation Project), базирующееся на принципе « транзитивной аннотации». Понятие транзитивной аннотации состоит в присваивании экспериментально установленной функции одного гена другому, ввиду схожести их нуклеотидных последовательностей.
С помощью PAINT пользователь может исследовать экспериментальные аннотации для генов из отдельного семейства и использовать данную информацию для заключения новых аннотаций для членов семейства генов, которые ещё не были достаточно изучены . Инструментарий PAINT позволяет строить модель, которая объясняла бы наследование или потерю той или иной функциональности гена в пределах отдельных ветвей филогенетических деревьев . Новые аннотации, полученные с помощью данной модели, именуются как аннотации на основе биологического предка (IBA — Inferred from Biological Ancestry) .
Данное приложение бесплатно доступно для загрузки на Github.