Учебная страница курса биоинформатики,
год поступления 2013
О формате .gbk
- Строка текста имеет длину не более 80 символов, с 1й по 80ю колонку.
LOCUS, DEFINITION, ACCESSION, SOURCE, FEATURES, ORIGIN - поля (keyword в документации GenBank); ORGANISM - подполе
- Названия полей начинаются в первой колонке и кончаются не позже 10й
- source, gene, misc_feature, CDS - имена особенностей (feature key в документации)
- Имена особенностей начинаются с 6й колонки и кончаются на далее колонки 20. До 6й колонки - пробелы, после имени и до 21й - пробелы.
- Строки одной особенности начинаются с имени и кончаются именем следующей особенности или новым полем.
- /gene, /locus_tag, /note, /product, /protein_id,/translation и др. называются свойствами или квалификаторами особенности (qualifiers в документации)
- Название квалификатора начинается "/" в позиции 22, идет без пробелов, и заканчивается либо знаком равенства, либо пробелами вплоть до конца строки.
- Значения квалификатора (value) идут после знака равенства. Бывают квалификаторы без значения. Текстовые занечения заключены в кавычки.
- Значение квалификатора может переходить на следующие строки. Строка продолжения имеет пробелы в колонках 1-21.
- Отличить продолжение от строки с квалификатором можно по "/" в колонке 22.
- Редко, но случается, что строка продолжения начинается с символа "/". В этом случае в ней нет знака равенства, а если и есть, то между "/" и равенством "=" ожидается наличие пробела. [Для гарантировано безошибочного различения надо знать полный список квалификаторов.] Предложение как различать эти строки:
if len(line[0:22].strip())==0 and line[22]=="/": # Пробелы в строках 1-21 и "/" в строке 22 word = line[22:80].splot("=")[0] if len(word)== len(word.translate(None," "): # длина слова от 22 колонки до "=" сравнивается с # длиной после удаления пробелов new_qualifier = word # qualifier else: continuation = line[22:80].strip() # continuation
По крайней мере один квалификатор, который может быть очень полезным, но при таком разборе будет упущен - это /pseudo. У него вообще нету значения, поэтому он "прилепится" к предыдущему. Им обычно отмечаются псевдогены, т.е. он встречается внутри "особенности" (feature key) gene. См. нижнюю часть примера.
Фрагменты из файла в формате .gbk LOCUS NC_015844 5521712 bp DNA circular CON 11-JUN-2013
DEFINITION Zobellia galactanivorans chromosome, complete genome.
ACCESSION NC_015844
SOURCE Zobellia galactanivorans
ORGANISM Zobellia galactanivorans
Bacteria; Bacteroidetes; Flavobacteriia; Flavobacteriales;
Flavobacteriaceae; Zobellia.
..............................................................
FEATURES Location/Qualifiers
source 1..5521712
/organism="Zobellia galactanivorans"
/mol_type="genomic DNA"
/strain="DsiJT"
/db_xref="taxon:63186"
gene 139..1563
..............................................................
misc_feature order(2108..2119,2123..2125,2327..2344,2351..2356,
2360..2365,2396..2398,2402..2413,2417..2422,2429..2434,
2459..2473)
/locus_tag="zobellia_2"
/note="homodimer interface [polypeptide binding]; other
site"
/db_xref="CDD:212508"
gene 2917..3462
/locus_tag="zobellia_3"
/db_xref="GeneID:10974842"
CDS 2917..3462
/locus_tag="zobellia_3"
/note="Localized in the cytoplasm"
/codon_start=1
/transl_table=11
/product="hypothetical protein"
/protein_id="YP_004734468.1"
/db_xref="GI:340616015"
/db_xref="GeneID:10974842"
/translation="MNRFKNIEYLKLGNKRQNQAYKELKELNIFEKLKKYNPILTGTV
PIDIDVPESDLDIICECKNHREFSAELLSLFGKKTDFELKSYKENQIQSTTAKFKTDT
FEIEIFGQHIPTEKQNAYRHMVIEDKILNSKGPEFRAEIRSLKSGGLKTEPAFAKLLG
LNGNPYTELLKFEATIQAEEE"
misc_feature 2977..3432
..............................................................
CDS 1570..2016
/gene="ptpA"
..............................................................
CDS complement(3642..4271)
/locus_tag="zobellia_4"
/note="Contains a signal peptide cleaved between the
residues 21 and 22; Localized in the periplamic space;
Conserved hypothetical protein"
/codon_start=1
/transl_table=11
/product="hypothetical protein"
/protein_id="YP_004734469.1"
/db_xref="GI:340616016"
/db_xref="GeneID:10975620"
/translation="MRKWLSFTSPLIITFILLSFGFEPKEVKVPETLKVTQPTEVLFP
KNKTVNSSILLAPPFLGSSYIGFKEALAFKESQGNYFTTNTLGYLGKYQFGIGTLQLM
GVYNATRFLNDPVLQERAFHTNIARNKWILRRDIARFVGKRIGGVEITESGMLAAAHL
AGAGNVKKYLRSWGAFDVSDSYGTTIAEYMKKFSGYDISHVSPKRNPKV"
gene complement(4418..5461)
..............................................................
gene 563555..563752
/locus_tag="zobellia_433"
/pseudo
/db_xref="GeneID:10976751"
..............................................................
misc_feature complement(order(5521383..5521394,5521473..5521475,
5521479..5521481,5521551..5521553))
/gene="ybgC2"
/locus_tag="zobellia_4783"
/note="active site"
/db_xref="CDD:238329"
ORIGIN
1 gggtaaattc aatagggtta gatttttttt ttagtttttt tgttcacata tttgcctacc
61 gagaaagtac ggattatcct ctagactttc cgccgactta cgaaatcact aaccaacaaa
121 aataagataa actttaaaat gggtgttact gctatttccg tatggaacaa ttgtttgacc
..............................................................
Поля, подполя, особенности, квалификаторы
Поле (keyword в документации GenBank)