Africa Hitech
- 1 year ago
- 0
- 0
GenBank — база данных , находящаяся в открытом доступе, содержащая все аннотированные последовательности ДНК и РНК , а также последовательности закодированных в них белков. GenBank поддерживается Национальным центром биотехнологической информации США (NCBI) , входящего в состав Национальных Институтов Здоровья в США, и доступен на бесплатной основе исследователям всего мира. GenBank получает и объединяет данные, полученные в разных лабораториях, для более чем 100 000 различных организмов.
GenBank — архивная база данных, то есть ответственность за содержимое каждой записи несут создатели этой записи, которыми, как правило, являются экспериментаторы, определившие данную последовательность. GenBank вместе с банками EMBL и DDBJ входит в консорциум INSDC ( ), осуществляющий регулярный обмен данными между этими тремя архивами аннотированных нуклеотидных последовательностей.
Релиз GenBank происходит каждые два месяца и доступен с сайта по протоколу FTP. Заметки о выпуске для текущей версии GenBank предоставляют подробную информацию о выпуске и уведомлениях о предстоящих изменениях в GenBank. Также доступны примечания к выпуску предыдущих версий GenBank.
В марте 1979 года в Университете Рокфеллера в Нью-Йорке состоялась встреча тридцати молекулярных биологов и специалистов по компьютерным наукам. На ней была согласована позиция о необходимости создания общенациональной компьютеризованной базы данных. Это было обусловлено стремительными темпами роста количества известных последовательностей ДНК , а также перспективами получения новых биологических знаний путём их анализа и сравнения. До того времени существовало несколько отдельных коллекций последовательностей, но ни одна из них не была полной .Три года понадобилось Национальному Институту Здоровья (NIH) , чтобы разработать схему финансирования проекта. За это время EMBL сделала общедоступной свою собственную базу данных последовательностей. Такая досадная для NIH задержка явилась следствием не только медленной работы бюрократической системы, но и неопределённостью среди учёных в отношении роли биологических коллекций во времена преобладания экспериментальных методов познания живого. Под давлением нескольких учёных-экспериментаторов NIH всё же начал поиск исполнителей проекта. В конкурсе на создание базы данных участвовали две группы: команда из Национального Фонда Биомедицинских Исследований (NBRF), возглавляемая , и группа исследователей под руководством из Лос-Аламосской национальной лаборатории (LANL) в сотрудничестве с частной компанией « » .
Дайхофф создала одну из первых баз данных биологических последовательностей, собирая аминокислотные последовательности белков с 1960-х годов. В серии томов «Атласа белковых последовательностей и структур» опубликованных начиная с 1965 года, Дайхофф была представлена самая крупная в мире коллекция последовательностей белков и нуклеиновых кислот, новейших методов их анализа и вытекающих из них эволюционных соображений .Данный атлас стал чрезвычайно популярен как инструмент в работах молекулярных и эволюционных биологов. Дайхофф рассчитывала, что исследователи будут делиться с ней новыми последовательности напрямую, до того, как они будут опубликованы. Однако данная инициатива не нашла должного отклика среди экспериментальных биологов, так как при занесении в Атлас не устанавливались ни авторство, ни приоритет открытия. Дайхофф и её команда были вынуждены продолжить заниматься ручным анализом публикуемой литературы .
Другой претендент на заключение контракта с NIH – группа из Лос-Аламоса, где со времён Манхэттенского проекта велись ограниченные биомедицинские исследования. Узнав о решении, принятом в Университете Рокфеллера, Уолтер Гоад был убеждён, что Лос-Аламос является «естественным местом для центра по анализу последовательностей ДНК», главным образом, из-за «уникальных компьютерных мощностей», которыми обладала располагающаяся там национальная лаборатория . Гоад также начал собирать последовательности нуклеиновых кислот, в основном, из других коллекций, принадлежащих Ричарду Грантому во Франции, Курту Стёберу в Германии, Дугласу Брутлагу и Элвину Кабату в США .
Предложения NBRF (Дайхофф) и LANL-BBN (Гоад) по созданию централизованной базы данных были очень похожи, однако они содержали ключевые различия, касающиеся собственности, конфиденциальности и научного приоритета. NBRF предложила собирать последовательности, анализируя опубликованную литературу и приглашая экспериментаторов предоставлять их данные. Такой подход подразумевал такое же отношение к последовательностям, как отношение натуралистов к экземплярам – находящимся в окружающей природе объектам, которые могут быть собраны и использованы. LANL-BBN, напротив, предлагали просить издательства, чтобы включение последовательностей в базу данных было обязательным условием для публикации статьи в журнале. Такая система соответствовала системе мотивации в экспериментальных науках, в которой результаты исследований считаются личным знанием до того, как они будут опубликованы и им будет присвоено авторство. Публикация таким образом является стимулом к тому, чтобы сделать знания общедоступными .
В 1980 году Верховный суд США объявил, что «что-либо под солнцем, созданное человеком», включая генетически модифицированные организмы, может быть запатентовано . Данное заявление поставило перед NIH вопрос о том, кто мог бы стать собственником информации в будущей базе данных. Гоад подчеркнул, что он «не собирается отстаивать какие-либо права собственности на какие бы то ни было данные», и отметил, что Дайхофф и ее команда «искали доходы от продаж своей базы данных и препятствовали их перераспределению», не упомянув, что доходы шли только на покрытие расходов, а не для получения прибыли .
LANL-BBN имели возможность в дальнейшем повысить открытость своей базы данных, предложив распространять ее через компьютерную сеть ARPANET , находящуюся под управлением Министерством обороны , в то время как NBRF мог предложить только ограниченный онлайн-доступ через телефонные модемы. 30 июня 1982 года NIH заключила контракт с LANL-BBN на создание общедоступной бесплатной базы данных последовательностей нуклеиновых кислот, которая вскоре стала называться GenBank.
Успех GenBank в сборе всех опубликованных последовательностей был обусловлен двумя ключевыми факторами. Во-первых, было организовано плотное сотрудничество с базой данных EMBL, созданной несколькими месяцами ранее в Гейдельберге , и с DDBJ в 1986 году. Каждая база данных была ответственна за отслеживание публикаций в определённых журналах .
Во-вторых, базы данных ДНК всё сильнее отставали от растущего взрывными темпами количества известных последовательностей. Решением проблемы стала договорённость с издательствами об электронном включении последовательностей в базу данных как обязательном условии для публикации в журнале.
С тех пор GenBank рос и расширялся, участвуя в таких проектах, как «Геном человека» и проектах по баркодированию ДНК . GenBank стала примером проекта, основанного на принципах «свободного контента» , которые приобретают огромное конкурентное преимущество в современном мире .
В середине 1980-х биоинформатическая компания Intelligenetics в Стэнфордском Университете управляла проектом GenBank совместно с LANL . Будучи одним из первых общественных биоинформатических проектов в Интернете, в рамках проекта были открыты первые форумы и средства для обмена научными знаниями: .
В период с 1989-1992 GenBank был перемещен в новообразованный Национальный Центр Биотехнологической Информации ( ) .
В третьем выпуске базы данных, вышедшем в декабре 1982 года содержалось 606 нуклеотидных последовательностей, в пересчёте на основания - 680338. Уже к ноябрю 1983 года количество последовательностей увеличилось более чем в 4 раза - до 2427. До 2000 года рост базы данных имел экспоненциальный характер. К 2007 году количество данных удваивалось каждые 18 месяцев.
С апреля 2002 года ведётся статистика по разделу WGS. Скорость его роста опережает основное отделение GenBank. После уменьшения темпов роста в 2010 году, WGS вновь демонстрирует ускоренный рост .
На февраль 2013 года GenBank содержал информацию о более чем 228 млрд. пар оснований и почти 200 млн. последовательностях (из более чем 100 000 живых организмов) .
В генном банке содержатся также дополнительные наборы данных, механически добавленных, на основе основной коллекции данных секвенирования.
По информации, содержащейся в таблице, можно определить масштаб данных, накопленных в GenBank и сравнить скорости, с которыми в базе данных появлялись новые записи в первые годы после основания базы и в настоящее время .
Выпуск | Дата | Оснований | Последовательностей |
---|---|---|---|
3 | декабрь 1982 |
680 338
|
606
|
66 | декабрь 1990 |
51 306 092
|
41 057
|
121 | декабрь 2000 |
11 101 066 288
|
10 106 023
|
181 | декабрь 2010 |
122 082 812 719
|
129 902 276
|
218 | февраль 2017 |
228 719 437 638
|
199 341 377
|
Аннотированный образец GenBank в формате GenBank Flat File имеет следующие разделы :
Название поля | Аннотация поля |
---|---|
LOCUS |
Поле LOCUS содержит следующие элементы данных:
Имя локуса (Locus Name) Единственное правило при назначении имени локуса - уникальность. Длина последовательности (Sequence Length) Количество нуклеотидных пар оснований (или аминокислотных остатков, в случае белковой последовательности) в записи последовательности. Поле поиска Entrez: длина последовательности [SLEN] Тип молекулы (Molecule Type) Каждая запись GenBank должна содержать данные о последовательности одного типа молекулы: геномная ДНК , геномная РНК , незрелая (несплайсированная) РНК, матричная РНК (кДНК), рибосомная РНК , транспортная РНК , малая ядерная РНК и другие. Поле поиска Entrez: тип молекулы [PROP]. Пример biomol_genomic, biomol_mRNA и т. д. Раздел GenBank (GenBank Division) Записи GenBank относятся к одному из следующих разделов : Таксономические разделы:
Высокопроизводительное секвенирование:
Проекты:
Поскольку разделы не отражают текущую (последовательность, реально относящаяся к конкретному организму, может входить в "техническую" группу из-за метода её получения), для получения всех последовательностей из конкретного организма следует использовать . Поле поиска Entrez: раздел [PROP] . Пример: gbdiv_pri, gbdiv_est и т. д. Дата изменения (Modification Date) Дата последней модификации записи. Поле поиска Entrez: дата [MDAT]. Пример 1999/07/25, 1999/07/25:1999/07/31 (обязателен формат гггг/мм/дд) |
DEFINITION |
Краткое описание последовательности: организм, имя гена/белка, описание функций последовательности (если последовательность является некодирующей).
Поле поиска Entrez: описание [TITL]. |
ACCESSION |
Уникальный и неизменный идентификатор записи последовательности (
англ.
)
.
Идентификатор представляет собой комбинацию букв и цифр. Обычно это одна буква, за которой следуют пять цифр (например, U12345) или две буквы, а затем шесть цифр (например, AF123456). Некоторые идентификаторы могут быть длиннее, в зависимости от типа записи последовательности.
Поле поиска Entrez: идентификатор [ACCN]. |
VERSION |
Идентификационный номер конкретной нуклеотидной последовательности в базе данных GenBank, использует формат "accession.version", реализованный GenBank / EMBL / DDBJ в феврале 1999 года. Увеличивается при любом изменении данных последовательности, например, с U12345.10 на U12345.11. Параллельно изменения получают новый номер в системе идентификаторов GI. Историю изменений последовательности можно найти в разделе
и
.
Поле поиска Entrez: используйте значение по умолчанию «All Fields». |
GI |
Идентификационный номер «GenInfo Identifier» для нуклеотидной или транслированной с него белковой последовательности. Если последовательность изменяется каким-либо образом, будет назначен новый номер GI.
Поле поиска Entrez: используйте значение по умолчанию «All Fields» |
KEYWORDS |
Ключевые слово или фраза, описывающие последовательность. В отсутствие ключевых слов содержит только точку.
Данное поле присутствует в записях последовательностей в основном по историческим причинам и не основано на контролируемой лексике. Используется в основном в старых записях или для особых типов последовательностей, таких как EST, STS, GSS, HTG и т. д., поэтому лучше не использовать для поиска. Поле поиска Entrez: ключевое слово [KYWD] |
SOURCE |
Организм-источник последовательности. Формат записи свободный, может сопровождаться типом молекулы.
Подполе Organism представляет формальное научное название исходного организма (род и вид, где это уместно) и его таксономию, основанную на базе данных таксономии NCBI. Поле поиска Entrez: организм [ORGN]. Пример: Saccharomyces cerevisiae |
REFERENCE |
Ссылки на публикации (журнальную статью, главу книги, книгу, диссертацию / монографию, материалы собрания, патент и т.п.) авторов записи с обсуждением указанных в записи данных. Ссылки автоматически сортируются по дате публикации, начиная с самых старых. Статус "unpublished" или "in press" означает отсутствия публикаций. Последняя статья обычно содержит информацию о непосредственном подателе последовательности, поэтому она называется «submitter block» и вместо названия статьи присутствуют слова «Direct Submission».
Поле содержит несколько элементов: Авторы (authors) Список авторов в порядке их появления в цитируемой статье. Поле поиска Entrez: а втор [AUTH] (в формате Фамилия AB без точек после инициалов, инициалы можно опустить). Заглавие (title) Название опубликованной или предварительное название неопубликованной работы. Поле поиска Entrez: название [WORD] . Журнал (jounal) MEDLINE аббревиатура названия журнала. (Полное правописание может быть получено из базы данных Entrez Journals) Поле поиска Entrez: имя журнала [JOUR] (можно вводить как полное правописание журнала, так и аббревиатуру MEDLINE). PUBMED Идентификатор PubMed (PMID). Ссылки, включающие идентификаторы PubMed, на соответствующую запись PubMed. В свою очередь, записи PubMed, содержащие идентификаторы последовательностей в поле SI (вторичный идентификатор источника), ссылаются на записи последовательностей. Поле поиска Entrez: Невозможно выполнить поиск по PubMed ID, однако можно выполнить поиск в базе данных PubMed. |
FEATURES |
Информация о местоположении и функции области, указанной в последовательности:
ген
, его продукт (
белок
),
промотор
, кодирующая последовательность (CDS), альтернативно сплайсированная мРНК и другие. Полный список функциональных последовательностей доступен в следующих местах:
Область может быть представлена единичным интервалом нуклеотидов, смежным интервалом нуклеотидов, объединением интервалов последовательности и другими представлениями. Область, как правило, задается двумя координатами n..m. Символ «<», перед координатами говорит о расположении на 5'-конце (например, CDS <1..206 ), символ «>» - на 3'-конце (например, CDS 435..915> ), пометка "complement" - о расположении на комплементарной цепи. Поле поиска Entrez: функциональный ключ [FKEY]. Пример, promoter Элементы поля: source Обязательное поле, содержащее длину последовательности, научное название организма-источника и Taxon ID (идентификационный номер таксона в базе ). Может также включать дополнительную информацию, такую как локализация на карте генома (например, номер хромосомы), штамм, клон, тип ткани и т. д. Поле поиска Entrez: используйте запрос длина последовательности [SLEN] для поиска по длине, организм [ORGN] для поиска по названию организма, дополнительная информация [ALL] для поиска других элементов, таких как штамм, клон, тип ткани. CDS Кодирующая белок последовательность нуклеотидов, включая старт- и стоп-кодоны. Содержит также транслированную с этой области аминокислотную последовательность. Спецификаторы "/evidence=experimental" и "/evidence=not_experimental" указывают на наличие или отсутствие экспериментального подтверждения существования белка. Для мРНК авторами записи могут быть описаны 5'-и 3'- нетранслируемые области (5'UTR и 3'UTR) и кодирующие последовательности (CDS, экзоны). Поле поиска Entrez: функциональный ключ [FKEY] protein_id, GI Идентификационный номер белковой последовательности, соответствующий идентификатору нуклеотидной последовательности. Идентификаторы белков состоят из трех букв, за которыми следуют пять цифр, точка и номер версии. Если произойдет изменение данных последовательности (даже одной аминокислоты), номер версии будет увеличен (например, AAA98665.1 изменится на AAA98665.2). Формат идентификации идентификационных номеров белковых последовательностей accession.version был реализован GenBank / EMBL / DDBJ в феврале 1999 года и работает параллельно с цифровой системой GI (см. выше). Поле поиска Entrez: используйте значение по умолчанию «All Fields» ген Область биологического интереса, имеющая имя и идентифицированная как ген. Поле поиска Entrez: функциональный ключ [FKEY] |
ORIGIN |
Сама последовательность, доступна для скачивания в различных форматах. Поле может быть пустым, может отображаться как «Unreported», или давать локальный указатель на начало последовательности, как правило, с участием экспериментально определенного сайта рестрикции или генетического локуса (если имеется). |
Заявки на внесение последовательности в одну из трёх баз (GenBank, ENA или DDBJ) отправляются либо отдельными авторами, либо центрами секвенирования в основном в электронной форме через программы BankIt или Sequin. Синхронизация данных между базами происходит ежедневно. Заявки тщательно проверяются на наличие фрагментов используемых векторов (используется система ), правильной трансляции кодирующей области, правильной таксономии и правильных библиографических ссылок. Черновик записи в GenBank отправляется обратно автору для проверки и последних правок перед публикацией в базе, которая может быть отложена до указанного момента по просьбе автора. После публикации (обычно в течение 2 дней после подачи заявки) запись получает идентификатор, по которому может быть извлечена посредством или по FTP . В среднем, за день идентификаторы получают приблизительно 3500 последовательностей. Наличие последовательности в публичном доступе GenBank является обязательным требованием к публикации во многих журналах .
GenBank предлагает специальные пакеты программ, облегчающие подачу заявок :
В настоящий момент база GenBank, помимо последовательностей отдельных генов, содержит много данных, полученных с помощью современных методов секвенирования ДНК и автоматического аннотирования последовательностей. Существует несколько разделов GenBank, посвящённых данным высокопроизводительного секвенирования .