Interested Article - FASTA
- 2020-12-08
- 1
FASTA — текстовый формат для нуклеотидных или полипептидных последовательностей, в котором нуклеотиды или аминокислоты обозначаются при помощи однобуквенных кодов . Из-за своей простоты и практичности в настоящее время используется большинством программ работы с биологическими последовательностями . Файлы данного формата могут содержать названия последовательностей, их идентификаторы в базах данных и комментарии. В зависимости от природы содержащихся в нем биологических последовательностей файл формата FASTA может иметь различные расширения .
История и распространение
Формат придуман и в 1985 году для , предназначенной для поиска в больших базах последовательностей, гомологичных данной. Первичное описание формата было произведено ими в документации этой программы, а сейчас его описание является частью документации программы BLAST .
Простота FASTA-формата позволяет легко осуществлять различные действия с последовательностями при помощи инструментов редактирования текста и скриптовых языков программирования, таких как Python , Ruby , Perl , Java .
Форматы FASTA и FASTQ (Sanger Institute) наиболее популярны для представления данных о биологических последовательностях . Существуют также другие форматы, в том числе используемые в банках данных GenBank , EMBL и UniProt .
Формат
Последовательности в формате FASTA начинаются с однострочного описания, за которым следуют строки, содержащие собственно последовательность. Описание отмечается символом «больше» («>») в первой колонке. Слово за этим символом и до первого пробела является идентификатором последовательности
, далее следует опциональное описание. Следующие несколько строк могут иметь первым символом точку с запятой («;»), и тогда они будут восприниматься как комментарии. На данный момент многие базы данных и программы не распознают комментарии, поэтому они мало распространены. Дальше следуют строки, содержащие собственно биологические последовательности. Обычно строки в формате FASTA ограничены длиной от 80 до 120 символов (по историческим причинам), но современные программы распознают последовательности, записанные полностью в одну строку. В один файл могут быть записаны несколько последовательностей, таким образом получается мульти-FASTA файл, однако перед каждой последовательностью должен стоять свой идентификатор . Пример одной последовательности в формате FASTA:>gi|31563518|ref|NP_852610.1| microtubule-associated proteins 1A/1B light chain 3A isoform b [Homo sapiens] MKMRFFSSPCGKAAVDPADRCKEVQQIRDQHPSKIPVIIERYKGEKQLPVLDKTKFLVPDHVNMSELVKI IRRRLQLNPTQAFFLLVNQHSMVSVSTPIADIYEQEKDEDGFLYMVYASQETFGFIRENE
Идентификатором этой последовательности является
gi|31563518|ref|NP_852610.1|
.
Последовательности записываются в виде однобуквенных кодов нуклеотидов или аминокислот , совпадающих с их стандартными однобуквенными обозначениями, принятыми / ИЮПАК , в порядке от 5'- к 3'-концу для нуклеиновых кислот и от N- к С-концу для аминокислот , в них допускаются пробелы, символы могут быть как в верхнем, так и в нижнем регистре. Числа, служебные символы конца строки и табуляции игнорируются программами работы с последовательностями .
Нуклеиновые кислоты обозначаются :
Код | Значение | Мнемоника |
---|---|---|
A | A | A denine — Аденин |
C | C | C ytosine — Цитозин |
G | G | G uanine — Гуанин |
T | T | T hymine — Тимин (5-метилурацил) |
U | U | U racil — Урацил |
R | A, G | pu R ine — Пурины |
Y | C, T, U | p Y rimidines — Пиримидины |
K | G, T, U | К етоновые основания |
M | A, C | Основания с аминогруппами (a M ino) |
S | C, G | Сильное ( S trong) взаимодействие в комплементарной паре (три водородные связи ) |
W | A, T, U | Слабое ( W eak) взаимодействие в комплементарной паре (две водородные связи ) |
B | не A (то есть C, G, T или U) | B идёт за A |
D | не C (то есть A, G, T или U) | D идёт за C |
H | не G (A, C, T или U) | H идёт за G |
V | не T и не U (A, C или G) | V идёт за U |
N | A C G T U | Любой (a N y) нуклеотид |
Для аминокислот есть 22 обычных кода (канонические аминокислоты, селеноцистеин и пирролизин ), 4 специальных (обозначения множеств аминокислот) и * для обозначения стоп-кодона (в формальных трансляциях генов ) .
Код аминокислоты | Значение |
---|---|
A | Аланин |
B | Аспарагиновая кислота (D) или Аспарагин (N) |
C | Цистеин |
D | Аспарагиновая кислота |
E | Глутаминовая кислота |
F | Фенилаланин |
G | Глицин |
H | Гистидин |
I | Изолейцин |
J | Лейцин (L) или Изолейцин (I) |
K | Лизин |
L | Лейцин |
M | Метионин |
N | Аспарагин |
O | Пирролизин |
P | Пролин |
Q | Глутамин |
R | Аргинин |
S | Серин |
T | Треонин |
U | Селеноцистеин |
V | Валин |
W | Триптофан |
Y | Тирозин |
Z | Глутаминовая кислота (E) или Глутамин (Q) |
X | Любая аминокислота |
* | Терминация трансляции |
Fasta-формат используется также для файлов, содержащих выравнивания биологических последовательностей . В этом случае в каждую последовательность в места, соответствующие позициям, не представленным в данной последовательности, вставляются символы «гэпов» (обычно это дефис или точка), в результате все последовательности в файле должны иметь одинаковую длину .
Идентификаторы последовательностей
Центр NCBI определил правила создания уникальных идентификаторов последовательностей (SeqID). В строку описания допускается вносить следующие варианты идентификаторов :
Тип | Формат(ы) | Пример(ы) |
---|---|---|
Локальный (не отсылает к внешним базам данных) |
lcl|
целое число
|
lcl|123
|
GenInfo идентификатор последовательности остова |
bbs|
целое число
|
bbs|123
|
GenInfo тип молекулы остова |
bbm|
целое число
|
bbm|123
|
GenInfo ID импорта |
gim|
целое число
|
gim|123
|
GenBank |
gb|
код доступа
|локус
|
gb|M73307|AGMA13GT
|
EMBL |
emb|
код доступа
|
локус
|
emb|CAM43271.1|
|
PIR |
pir|
код доступа
|
название
|
pir||G36364
|
SWISS-PROT |
sp|
код доступа
|
название
|
sp|P01013|OVAX_CHICK
|
Патент |
pat|
страна
|
патент
|
номер последовательности
|
pat|US|RE33188|1
|
Патентная заявка |
pgp|
страна
|
номер заявки
|
номер последовательности
|
pgp|EP|0238993|7
|
RefSeq |
ref|
код доступа
|
название
|
ref|NM_010450.1|
|
Ссылка на базу данных не из этого списка |
gnl|
база данных
|
целое число
|
gnl|taxon|9606
|
Интегрированная база данных GenInfo |
gi|
целое число
|
gi|21434723
|
DDBJ |
dbj|
код доступа
|
локус
|
dbj|BAC85684.1|
|
PRF |
prf|
код доступа
|
название
|
prf||0806162C
|
PDB |
pdb|
запись
|
цепь
|
pdb|1I4L|D
|
GenBank с аннотациями от третьих лиц |
tpg|
код доступа
|
название
|
tpg|BK003456|
|
EMBL с аннотациями от третьих лиц |
tpe|
код доступа
|
название
|
tpe|BN000123|
|
DDBJ с аннотациями от третьих лиц |
tpd|
код доступа
|
название
|
tpd|FAA00017|
|
TrEMBL |
tr|
код доступа
|
название
|
tr|Q90RT2|Q90RT2_9HIV1
|
Вертикальные чёрточки («|») в списке сверху являются не разделителями, а частью формата. Можно ставить идентификаторы подряд, разделяя их чертами. В случае, если какое-то из полей идентификатора оставлено пустым, для обеспечения совместимости с программами необходимо ставить две черты подряд .
Расширения файлов
Файлы формата fasta могут иметь различное расширение в зависимости от природы представленных в них биологических данных .
Расширение | Значение | Примечания |
---|---|---|
fasta | Обычные данные fasta | Любые данные fasta. Иногда также .fa, .seq, .fsa, .fas |
fna | аббр. от «fasta nucleic acid» | Для описания нуклеотидных последовательностей. |
ffn | Кодирующие участки нуклеотидов | Содержат кодирующие участки геномов . |
faa | аббр. от «fasta amino acid» | Содержат аминокислотные последовательности. Используется расширение mpfa при хранении нескольких белков в одном файле. |
frn | Некодирующая РНК в формате FASTA | Содержат некодирующие РНК в алфавите ДНК , например тРНК , рРНК |
afa, mfa | Выравнивание в формате FASTA (a от «alignment», m от «multiple») | Содержат выравнивания биологических (нуклеотидных или аминокислотных) последовательностей |
Примечания
- . Дата обращения: 19 июня 2015. 19 июня 2015 года. (англ.)
- ↑ Lipman D. , Pearson W. (англ.) // Science. — 1985. — 22 March ( vol. 227 , no. 4693 ). — P. 1435—1441 . — ISSN . — doi : .
- Pearson W. R. , Lipman D. J. (англ.) // Proceedings of the National Academy of Sciences. — 1988. — 1 April ( vol. 85 , no. 8 ). — P. 2444—2448 . — ISSN . — doi : .
- ↑ . NCBI . Дата обращения: 30 мая 2020. 13 июня 2020 года.
- Peter J. A. Cock, Tiago Antao, Jeffrey T. Chang, Brad A. Chapman, Cymon J. Cox. (англ.) // Bioinformatics. — 2009-06-01. — Vol. 25 , iss. 11 . — P. 1422–1423 . — ISSN . — doi : . 15 мая 2020 года.
- Naohisa Goto, Pjotr Prins, Mitsuteru Nakao, Raoul Bonnal, Jan Aerts. (англ.) // Bioinformatics. — 2010-10-15. — Vol. 26 , iss. 20 . — P. 2617–2619 . — ISSN . — doi : . 25 февраля 2021 года.
- Jason E. Stajich, David Block, Kris Boulez, Steven E. Brenner, Stephen A. Chervitz. (англ.) // Genome Research. — 2002-10-01. — Vol. 12 , iss. 10 . — P. 1611–1618 . — ISSN . — doi : . 17 октября 2019 года.
- Aleix Lafita, Spencer Bliven, Andreas Prlić, Dmytro Guzenko, Peter W. Rose. (англ.) // PLOS Computational Biology. — 2019-08-02. — Vol. 15 , iss. 2 . — P. e1006791 . — ISSN . — doi : . 14 апреля 2021 года.
- . emboss.open-bio.org. Дата обращения: 22 мая 2020. 14 февраля 2020 года.
- . www.ncbi.nlm.nih.gov. Дата обращения: 19 мая 2020. 18 мая 2020 года.
- (англ.) (txt). European Nucleotide Archive . European Bioinformatics Institute (12 марта 2020). Дата обращения: 8 июня 2020.
- (англ.) . ExPASy Bioinformatics Resource Portal (22 апреля 2020). Дата обращения: 8 июня 2020. 13 мая 2020 года.
- . www.metagenomics.wiki. Дата обращения: 19 мая 2020. 12 августа 2020 года.
- Ta Schoenfeld, L McKerracher, R Obar, Rb Vallee. (англ.) // The Journal of Neuroscience. — 1989-05-01. — Vol. 9 , iss. 5 . — P. 1712–1730 . — ISSN . — doi : .
- : Tao Tao. . . National Center for Biotechnology Information (24 августа 2011). Дата обращения: 15 марта 2012. 13 августа 2015 года.
- (англ.) . www.ddbj.nig.ac.jp. Дата обращения: 16 апреля 2020. 29 сентября 2020 года.
- (англ.) // Biochemical Journal. — 1984. — 15 April ( vol. 219 , no. 2 ). — P. 345—373 . — ISSN . — doi : .
- . www.cgl.ucsf.edu. Дата обращения: 22 мая 2020. 24 января 2021 года.
- . NCBI C++ Toolkit . Дата обращения: 30 мая 2020. 15 декабря 2020 года.
- Leonard Shonda A. , Littlejohn Timothy G. , Baxevanis Andreas D. (англ.) // Current Protocols in Bioinformatics. — 2006. — December ( vol. 16 , no. 1 ). — ISSN . — doi : .
- Zahoorullah S MD. A Textbook of Biotechnology. — SM Online Publishers LLC, 2015. — С. 6-7. — ISBN 9780996274531 .
- . www.jalview.org. Дата обращения: 1 апреля 2020. 19 февраля 2020 года.
Ссылки
- (англ.)
- (англ.)
- 2020-12-08
- 1