Kodomo

Пользователь

Учебная страница курса биоинформатики,
год поступления 2013

О формате .gbk

if len(line[0:22].strip())==0 and line[22]=="/": # Пробелы в строках 1-21 и "/" в строке 22
    word = line[22:80].splot("=")[0]
    if len(word)== len(word.translate(None," "): # длина слова от 22 колонки до "=" сравнивается с 
                                                 # длиной после удаления пробелов
        new_qualifier = word                     # qualifier  
    else:
        continuation = line[22:80].strip()       # continuation

По крайней мере один квалификатор, который может быть очень полезным, но при таком разборе будет упущен - это /pseudo. У него вообще нету значения, поэтому он "прилепится" к предыдущему. Им обычно отмечаются псевдогены, т.е. он встречается внутри "особенности" (feature key) gene. См. нижнюю часть примера.

Фрагменты из файла в формате .gbk

LOCUS       NC_015844            5521712 bp    DNA     circular CON 11-JUN-2013
DEFINITION  Zobellia galactanivorans chromosome, complete genome.
ACCESSION   NC_015844
SOURCE      Zobellia galactanivorans
  ORGANISM  Zobellia galactanivorans
            Bacteria; Bacteroidetes; Flavobacteriia; Flavobacteriales;
            Flavobacteriaceae; Zobellia.
..............................................................
FEATURES             Location/Qualifiers
     source          1..5521712
                     /organism="Zobellia galactanivorans"
                     /mol_type="genomic DNA"
                     /strain="DsiJT"
                     /db_xref="taxon:63186"
     gene            139..1563
.............................................................. 
     misc_feature    order(2108..2119,2123..2125,2327..2344,2351..2356,
                     2360..2365,2396..2398,2402..2413,2417..2422,2429..2434,
                     2459..2473)
                     /locus_tag="zobellia_2"
                     /note="homodimer interface [polypeptide binding]; other
                     site"
                     /db_xref="CDD:212508"
     gene            2917..3462
                     /locus_tag="zobellia_3"
                     /db_xref="GeneID:10974842"
     CDS             2917..3462
                     /locus_tag="zobellia_3"
                     /note="Localized in the cytoplasm"
                     /codon_start=1
                     /transl_table=11
                     /product="hypothetical protein"
                     /protein_id="YP_004734468.1"
                     /db_xref="GI:340616015"
                     /db_xref="GeneID:10974842"
                     /translation="MNRFKNIEYLKLGNKRQNQAYKELKELNIFEKLKKYNPILTGTV
                     PIDIDVPESDLDIICECKNHREFSAELLSLFGKKTDFELKSYKENQIQSTTAKFKTDT
                     FEIEIFGQHIPTEKQNAYRHMVIEDKILNSKGPEFRAEIRSLKSGGLKTEPAFAKLLG
                     LNGNPYTELLKFEATIQAEEE"
     misc_feature    2977..3432
.............................................................. 
     CDS             1570..2016
                     /gene="ptpA"
.............................................................. 
     CDS             complement(3642..4271)
                     /locus_tag="zobellia_4"
                     /note="Contains a signal peptide cleaved between the
                     residues 21 and 22; Localized in the periplamic space;
                     Conserved hypothetical protein"
                     /codon_start=1
                     /transl_table=11
                     /product="hypothetical protein"
                     /protein_id="YP_004734469.1"
                     /db_xref="GI:340616016"
                     /db_xref="GeneID:10975620"
                     /translation="MRKWLSFTSPLIITFILLSFGFEPKEVKVPETLKVTQPTEVLFP
                     KNKTVNSSILLAPPFLGSSYIGFKEALAFKESQGNYFTTNTLGYLGKYQFGIGTLQLM
                     GVYNATRFLNDPVLQERAFHTNIARNKWILRRDIARFVGKRIGGVEITESGMLAAAHL
                     AGAGNVKKYLRSWGAFDVSDSYGTTIAEYMKKFSGYDISHVSPKRNPKV"
     gene            complement(4418..5461)
.............................................................. 
     gene            563555..563752
                     /locus_tag="zobellia_433"
                     /pseudo
                     /db_xref="GeneID:10976751"
.............................................................. 
     misc_feature    complement(order(5521383..5521394,5521473..5521475,
                     5521479..5521481,5521551..5521553))
                     /gene="ybgC2"
                     /locus_tag="zobellia_4783"
                     /note="active site"
                     /db_xref="CDD:238329"
ORIGIN      
        1 gggtaaattc aatagggtta gatttttttt ttagtttttt tgttcacata tttgcctacc
       61 gagaaagtac ggattatcct ctagactttc cgccgactta cgaaatcact aaccaacaaa
      121 aataagataa actttaaaat gggtgttact gctatttccg tatggaacaa ttgtttgacc
..............................................................