1. Поиск в геноме участков, кодирующих белки, похожие на заданный
Мне известна аминокислотная последовательность белка MOEB_ECOLI из Escherichia coli K-12 (moeb_ecoli.fasta). Необходимо определить, закодированы ли похожие белки в геноме бактерии Pasteurella multocida (pm_genome.fasta), не пользуясь аннотацией генома.
Для поиска по геному бактерии Pasteurella multocida создаю индексные файлы пакета BLAST:
formatdb -i pm_genome.fasta -p f -n pm
С помощью программы TBLASTN провожу поиск с порогом на E-value 0,001.
blastall -p tblastn -d pm -i moeb_ecoli.fasta -o moeb_homologs.txt -e 0.001
На выходе получился файл moeb_homologs.txt.
Поиск гомологов белка MOEB_ECOLI в геноме бактерии Pasteurella multocida
Число находок с Е-value<0,001 |
2 |
Характеристика лучшей находки: |
|
|
E-value находки |
4e-85 |
Название геномной последовательности |
AE006106 |
Координаты выравнивания(-ий) в найденной последовательности |
2199 - 2912 |
2. Нахождение записи EMBL по последовательности с помощью программы BLASTN
Необходимо определить AC записи нынешнего релиза EMBL, в которую попадает найденная в предыдущем упражнении последовательность гена гомолога белка MOEB_ECOLI, а также координаты этого гена согласно аннотации EMBL.
Для этого создаю файл с последовательностью того участка генома, который был найден в предыдущем упражнении как лучший:
seqret "pm_genome.fasta:ae006106[2199:2912]" homolog.fasta
На сайте EBI (http://www.ebi.ac.uk/Tools/) запускаю поиск этой последовательности в банке "EMBL standard prokaryote".
>EM_PRO:AE004439; AE004439 Pasteurella multocida subsp. multocida str. Pm70, complete
genome.
Length = 2257487
Score = 1288 bits (1428), Expect = 0.0
Identities = 714/714 (100%)
Strand = Plus / Plus
Query: 1 atgactgaattaagttatcaagaagaattacgttataaccgtcaaattatgctcaaggcg 60
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 806372 atgactgaattaagttatcaagaagaattacgttataaccgtcaaattatgctcaaggcg 806431
Query: 61 gtagattttgaggggcaagaaaccctcaaacaaagcaaaatgctgattgttggcttaggc 120
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 806432 gtagattttgaggggcaagaaaccctcaaacaaagcaaaatgctgattgttggcttaggc 806491
Query: 121 ggtttaggctgtgcggccagccaatatttaacgacagctggtgtggggcatctcactttg 180
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 806492 ggtttaggctgtgcggccagccaatatttaacgacagctggtgtggggcatctcactttg 806551
Query: 181 ttggattttgatacggtgtcgctgtcgaacctacaacgccaggtgttgcacgatgacagc 240
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 806552 ttggattttgatacggtgtcgctgtcgaacctacaacgccaggtgttgcacgatgacagc 806611
Query: 241 cgtttagcgatgccgaaagtcgattcggcaaaactgtcgttgcaacgcttaaatccacat 300
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 806612 cgtttagcgatgccgaaagtcgattcggcaaaactgtcgttgcaacgcttaaatccacat 806671
Query: 301 attcagattgacactatcaatgccaaactctcaacagaaaaactggctgaaatcataccg 360
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 806672 attcagattgacactatcaatgccaaactctcaacagaaaaactggctgaaatcataccg 806731
Query: 361 cactttgatgtgattttagattgcaccgacaatatagaaattcgtaatcagcttgatcag 420
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 806732 cactttgatgtgattttagattgcaccgacaatatagaaattcgtaatcagcttgatcag 806791
Query: 421 gtctgccaacaagcgaaagtgccgttagtctctggagcggcgatccgcctagaagggcaa 480
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 806792 gtctgccaacaagcgaaagtgccgttagtctctggagcggcgatccgcctagaagggcaa 806851
Query: 481 gtaacggtatttacttatcaagaaaatacgccaacctatcgtacattaagtcaattattt 540
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 806852 gtaacggtatttacttatcaagaaaatacgccaacctatcgtacattaagtcaattattt 806911
Query: 541 ggcgagaatacgctaagttgcgtcgaggcgggtgtattagcgcccattgtgggcattgtt 600
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 806912 ggcgagaatacgctaagttgcgtcgaggcgggtgtattagcgcccattgtgggcattgtt 806971
Query: 601 ggttctattcaagcgctagaggcaattaaagtgcggttaaatatcggtaagaatttatgt 660
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 806972 ggttctattcaagcgctagaggcaattaaagtgcggttaaatatcggtaagaatttatgt 807031
Query: 661 ggcagattactgatgattgatgggatgacgatgaatgtgagagagatcaaattt 714
||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 807032 ggcagattactgatgattgatgggatgacgatgaatgtgagagagatcaaattt 807085
В записи AE004439 этот ген имеет координаты 806372 - 807085.
Нахожу полную запись EMBL с AC AE004439:
entret embl:AE004439 -auto
В поле FT о соответствующем участке имеется следующая информация:
FT gene 806372..807088
FT /gene="moeB"
FT /locus_tag="PM0695"
FT CDS 806372..807088
FT /codon_start=1
FT /transl_table=11
FT /gene="moeB"
FT /locus_tag="PM0695"
FT /product="MoeB"
FT /db_xref="GOA:Q9CMV9"
FT /db_xref="HSSP:1JWA"
FT /db_xref="InterPro:IPR016040"
FT /db_xref="UniProtKB/TrEMBL:Q9CMV9"
FT /protein_id="AAK02779.1"
FT /translation="MTELSYQEELRYNRQIMLKAVDFEGQETLKQSKMLIVGLGGLGCA
FT ASQYLTTAGVGHLTLLDFDTVSLSNLQRQVLHDDSRLAMPKVDSAKLSLQRLNPHIQID
FT TINAKLSTEKLAEIIPHFDVILDCTDNIEIRNQLDQVCQQAKVPLVSGAAIRLEGQVTV
FT FTYQENTPTYRTLSQLFGENTLSCVEAGVLAPIVGIVGSIQALEAIKVRLNIGKNLCGR
FT LLMIDGMTMNVREIKF"
Координаты CDS: 806372 - 807088.
Последовательность соответствует записи Q9CMV9 банка UniProt.
3. Поиск гомологов с помощью программы BLASTN
U00096 - идентификатор одной из трех записей EMBL, на которую ссылается запись Swiss-Prot, описывающая белок MOEB_ECOLI (p12282.sw).
Сохраняю данную запись EMBL:
entret embl:u00096 -auto
Получаю файл u00096.entret. В нем соответстующая CDS имеет координаты: complement(863603..864352). Вырезаю эту последовательность в отдельный файл:
seqret -sask
Reads and writes (returns) sequences
Input (gapped) sequence(s): u00096.entret
Begin at position [start]: 863603
End at position [end]: 864352
Reverse strand [N]: y
output sequence(s) [u00096.fasta]:
С помощью программы BLASTN произвожу поиск гомологов этого гена в геноме бактерии Pasteurella multocida:
blastall -p blastn -d pm -i u00096.fasta -o moeb_homologs2.txt
На выходе получаю файл moeb_homologs2.txt. По результатам поиска составляю таблицу:
Число находок с Е-value<0,001 |
0 |
Характеристика лучшей находки: |
|
|
E-value находки |
0.085 |
Название геномной последовательности |
AE006126 |
Координаты выравнивания в найденной последовательности |
9210 - 9190 |
Длина выравнивания |
21 |
Не найдено ни одной находки с E-value < 0.001, в отличие от результатов поиска в первом упражнении, где таковых находок оказалось две. Причем лучшей находки из первого упражнения здесь вообще не оказалось. Объяснить это можно тем, что одной аминокислотной последовательности может соответствовать несколько нуклеотидных последовательностей. Поэтому искать гомологов белка MOEB_ECOLI по конкретно его кодирующей последовательности неправильно. Правильно было бы искать по всем нуклеотидным последовательностям, кодирующим данную аминокислотную последовательность.
Вывод: программа BLASTN непригодна для поиска сколько-нибудь удаленных гомологов.