Программы пакета BLAST для работы с нуклеотидными последовательностями

 

 

1. Поиск в геноме участков, кодирующих белки, похожие на заданный

Мне известна аминокислотная последовательность белка MOEB_ECOLI из Escherichia coli K-12 (moeb_ecoli.fasta). Необходимо определить, закодированы ли похожие белки в геноме бактерии Pasteurella multocida (pm_genome.fasta), не пользуясь аннотацией генома.

Для поиска по геному бактерии Pasteurella multocida создаю индексные файлы пакета BLAST:

formatdb -i pm_genome.fasta -p f -n pm

С помощью программы TBLASTN провожу поиск с порогом на E-value 0,001.

blastall -p tblastn -d pm -i moeb_ecoli.fasta -o moeb_homologs.txt -e 0.001

На выходе получился файл moeb_homologs.txt.

Поиск гомологов белка MOEB_ECOLI в геноме бактерии Pasteurella multocida

Число находок с Е-value<0,001 2
Характеристика лучшей находки:  
   E-value находки 4e-85
Название геномной последовательности AE006106
Координаты выравнивания(-ий) в найденной последовательности 2199 - 2912

 

2. Нахождение записи EMBL по последовательности с помощью программы BLASTN

Необходимо определить AC записи нынешнего релиза EMBL, в которую попадает найденная в предыдущем упражнении последовательность гена гомолога белка MOEB_ECOLI, а также координаты этого гена согласно аннотации EMBL.

Для этого создаю файл с последовательностью того участка генома, который был найден в предыдущем упражнении как лучший:

seqret "pm_genome.fasta:ae006106[2199:2912]" homolog.fasta

На сайте EBI (http://www.ebi.ac.uk/Tools/) запускаю поиск этой последовательности в банке "EMBL standard prokaryote".

>EM_PRO:AE004439; AE004439 Pasteurella multocida subsp. multocida str. Pm70, complete
 genome.
 Length = 2257487
 Score = 1288 bits (1428), Expect = 0.0
 		    Identities = 714/714 (100%)
 		    Strand = Plus / Plus
 
 		    Query: 1      atgactgaattaagttatcaagaagaattacgttataaccgtcaaattatgctcaaggcg 60
 		                  ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
 		    Sbjct: 806372 atgactgaattaagttatcaagaagaattacgttataaccgtcaaattatgctcaaggcg 806431
 
 		    Query: 61     gtagattttgaggggcaagaaaccctcaaacaaagcaaaatgctgattgttggcttaggc 120
 		                  ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
 		    Sbjct: 806432 gtagattttgaggggcaagaaaccctcaaacaaagcaaaatgctgattgttggcttaggc 806491
 
 		    Query: 121    ggtttaggctgtgcggccagccaatatttaacgacagctggtgtggggcatctcactttg 180
 		                  ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
 		    Sbjct: 806492 ggtttaggctgtgcggccagccaatatttaacgacagctggtgtggggcatctcactttg 806551
 
 		    Query: 181    ttggattttgatacggtgtcgctgtcgaacctacaacgccaggtgttgcacgatgacagc 240
 		                  ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
 		    Sbjct: 806552 ttggattttgatacggtgtcgctgtcgaacctacaacgccaggtgttgcacgatgacagc 806611
 
 		    Query: 241    cgtttagcgatgccgaaagtcgattcggcaaaactgtcgttgcaacgcttaaatccacat 300
 		                  ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
 		    Sbjct: 806612 cgtttagcgatgccgaaagtcgattcggcaaaactgtcgttgcaacgcttaaatccacat 806671
 
 		    Query: 301    attcagattgacactatcaatgccaaactctcaacagaaaaactggctgaaatcataccg 360
 		                  ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
 		    Sbjct: 806672 attcagattgacactatcaatgccaaactctcaacagaaaaactggctgaaatcataccg 806731
 
 		    Query: 361    cactttgatgtgattttagattgcaccgacaatatagaaattcgtaatcagcttgatcag 420
 		                  ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
 		    Sbjct: 806732 cactttgatgtgattttagattgcaccgacaatatagaaattcgtaatcagcttgatcag 806791
 
 		    Query: 421    gtctgccaacaagcgaaagtgccgttagtctctggagcggcgatccgcctagaagggcaa 480
 		                  ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
 		    Sbjct: 806792 gtctgccaacaagcgaaagtgccgttagtctctggagcggcgatccgcctagaagggcaa 806851
 
 		    Query: 481    gtaacggtatttacttatcaagaaaatacgccaacctatcgtacattaagtcaattattt 540
 		                  ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
 		    Sbjct: 806852 gtaacggtatttacttatcaagaaaatacgccaacctatcgtacattaagtcaattattt 806911
 
 		    Query: 541    ggcgagaatacgctaagttgcgtcgaggcgggtgtattagcgcccattgtgggcattgtt 600
 		                  ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
 		    Sbjct: 806912 ggcgagaatacgctaagttgcgtcgaggcgggtgtattagcgcccattgtgggcattgtt 806971
 
 		    Query: 601    ggttctattcaagcgctagaggcaattaaagtgcggttaaatatcggtaagaatttatgt 660
 		                  ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
 		    Sbjct: 806972 ggttctattcaagcgctagaggcaattaaagtgcggttaaatatcggtaagaatttatgt 807031
 
 		    Query: 661    ggcagattactgatgattgatgggatgacgatgaatgtgagagagatcaaattt 714
 		                  ||||||||||||||||||||||||||||||||||||||||||||||||||||||
 		    Sbjct: 807032 ggcagattactgatgattgatgggatgacgatgaatgtgagagagatcaaattt 807085


В записи AE004439 этот ген имеет координаты 806372 - 807085.

Нахожу полную запись EMBL с AC AE004439:

entret embl:AE004439 -auto

В поле FT о соответствующем участке имеется следующая информация:

FT   gene            806372..807088
FT                   /gene="moeB"
FT                   /locus_tag="PM0695"
FT   CDS             806372..807088
FT                   /codon_start=1
FT                   /transl_table=11
FT                   /gene="moeB"
FT                   /locus_tag="PM0695"
FT                   /product="MoeB"
FT                   /db_xref="GOA:Q9CMV9"
FT                   /db_xref="HSSP:1JWA"
FT                   /db_xref="InterPro:IPR016040"
FT                   /db_xref="UniProtKB/TrEMBL:Q9CMV9"
FT                   /protein_id="AAK02779.1"
FT                   /translation="MTELSYQEELRYNRQIMLKAVDFEGQETLKQSKMLIVGLGGLGCA
FT                   ASQYLTTAGVGHLTLLDFDTVSLSNLQRQVLHDDSRLAMPKVDSAKLSLQRLNPHIQID
FT                   TINAKLSTEKLAEIIPHFDVILDCTDNIEIRNQLDQVCQQAKVPLVSGAAIRLEGQVTV
FT                   FTYQENTPTYRTLSQLFGENTLSCVEAGVLAPIVGIVGSIQALEAIKVRLNIGKNLCGR
FT                   LLMIDGMTMNVREIKF"
 		    
                     

Координаты CDS: 806372 - 807088.

Последовательность соответствует записи Q9CMV9 банка UniProt.

3. Поиск гомологов с помощью программы BLASTN

U00096 - идентификатор одной из трех записей EMBL, на которую ссылается запись Swiss-Prot, описывающая белок MOEB_ECOLI (p12282.sw).

Сохраняю данную запись EMBL:

entret embl:u00096 -auto

Получаю файл u00096.entret. В нем соответстующая CDS имеет координаты: complement(863603..864352). Вырезаю эту последовательность в отдельный файл:

seqret -sask     
Reads and writes (returns) sequences        
Input (gapped) sequence(s): u00096.entret             
Begin at position [start]: 863603               
End at position [end]: 864352                
Reverse strand [N]: y
output sequence(s) [u00096.fasta]:

С помощью программы BLASTN произвожу поиск гомологов этого гена в геноме бактерии Pasteurella multocida:

blastall -p blastn -d pm -i u00096.fasta -o moeb_homologs2.txt

На выходе получаю файл moeb_homologs2.txt. По результатам поиска составляю таблицу:

Число находок с Е-value<0,001   0      
Характеристика лучшей находки:  
   E-value находки  0.085
Название геномной последовательности AE006126
Координаты выравнивания в найденной последовательности 9210 - 9190
Длина выравнивания 21

Не найдено ни одной находки с E-value < 0.001, в отличие от результатов поиска в первом упражнении, где таковых находок оказалось две. Причем лучшей находки из первого упражнения здесь вообще не оказалось. Объяснить это можно тем, что одной аминокислотной последовательности может соответствовать несколько нуклеотидных последовательностей. Поэтому искать гомологов белка MOEB_ECOLI по конкретно его кодирующей последовательности неправильно. Правильно было бы искать по всем нуклеотидным последовательностям, кодирующим данную аминокислотную последовательность.

Вывод: программа BLASTN непригодна для поиска сколько-нибудь удаленных гомологов.

 

Михальченко Алексей © 2008-2009