Создание индексных файлов пакета BLAST для поиска по заданному геному:
formatdb -i pm_genome.fasta -p F -n pm
Где параметры:
Поиск по TBLASTN с порогом на E-value 0,001:
blastall -p tblastn -d pm -i k6pf1_ecoli.fasta -e 0.001 -o output.txt
Где прараметры:
Число находок с Е-value<0,001 | 1 | |
Характеристика лучшей находки: | Score = 452 bits (1164), Identities = 220/320 (68%), Positives = 254/320 (79%), Gaps = 1/320 (0%) Frame = +1 | |
E-value находки | e-129 | |
Название геномной последовательности | AE006042 | |
Координаты выравнивания(-ий) в найденной последовательности | 8494-9453 |
>EM_PRO:AE004439; AE004439 Pasteurella multocida subsp. multocida str. Pm70, complete genome. Length = 2,257,487 Minus Strand HSPs: Score = 4744 (717.8 bits), Expect = 1.3e-206, P = 1.3e-206 Identities = 952/960 (99%), Positives = 952/960 (99%), Strand = Minus / Plus Query: 960 ATGATNNNNNNNNTAGCAGTATTAACCAGTGGTGGTGACGCACCGGGCATGAATGCCGCC 901 ||||| ||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 95079 ATGATAAAAAAAATAGCAGTATTAACCAGTGGTGGTGACGCACCGGGCATGAATGCCGCC 95138 Query: 900 ATTCGCGGCGTGGTTCGTTCAGCACTTGCGGCAGGATTAGAAGTATACGGTATTTATGAA 841 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 95139 ATTCGCGGCGTGGTTCGTTCAGCACTTGCGGCAGGATTAGAAGTATACGGTATTTATGAA 95198 Query: 840 GGCTATTATGGGTTATATCATAATAAAGTGAAACAAATGACCCGTTATAGTGTTTCCGAC 781 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 95199 GGCTATTATGGGTTATATCATAATAAAGTGAAACAAATGACCCGTTATAGTGTTTCCGAC 95258 Query: 780 ATTATTAACCGCGGCGGTACTTTTTTAGGATCGGCGCGTTTTCCTGAATTTAAAGATCCT 721 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 95259 ATTATTAACCGCGGCGGTACTTTTTTAGGATCGGCGCGTTTTCCTGAATTTAAAGATCCT 95318 Query: 720 GCGGTTCGCGCTAAATGTGCTGAAATTTTACGTTCCCATGGTATTGATGCACTTGTGGTG 661 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 95319 GCGGTTCGCGCTAAATGTGCTGAAATTTTACGTTCCCATGGTATTGATGCACTTGTGGTG 95378 Query: 660 ATTGGTGGGGACGGTTCTTACATGGGGGCAAAATTACTGACGGAAGAACATGGTTTCCCT 601 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 95379 ATTGGTGGGGACGGTTCTTACATGGGGGCAAAATTACTGACGGAAGAACATGGTTTCCCT 95438 Query: 600 TGCGTCGGTATCCCGGGTACGATTGATAATGATGTGGCAGGGACAGACTACACCATCGGT 541 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 95439 TGCGTCGGTATCCCGGGTACGATTGATAATGATGTGGCAGGGACAGACTACACCATCGGT 95498 Query: 540 TATCAAACCGCATTACAGACAGCCGTCGAAGCCATTGACCGTTTACGCGATACCTCAAGC 481 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 95499 TATCAAACCGCATTACAGACAGCCGTCGAAGCCATTGACCGTTTACGCGATACCTCAAGC 95558 Query: 480 TCGCACCAACGTATTTCGATTGTTGAAATCATGGGACGTCATTGTAGTGATTTAGCTATT 421 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 95559 TCGCACCAACGTATTTCGATTGTTGAAATCATGGGACGTCATTGTAGTGATTTAGCTATT 95618 Query: 420 TCAGCGGGTATTGCTGGTGGTTGTGAGTATATTGTGGCATCGGAAGTAGAATTTAACCGT 361 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 95619 TCAGCGGGTATTGCTGGTGGTTGTGAGTATATTGTGGCATCGGAAGTAGAATTTAACCGT 95678 Query: 360 GAAGAGTTAATTCAACAGATTGAGCGCAGTATTATCAAAGGTAAACGTCATGCCATTATT 301 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 95679 GAAGAGTTAATTCAACAGATTGAGCGCAGTATTATCAAAGGTAAACGTCATGCCATTATT 95738 Query: 300 GCAATTACTGAGTTAATTTGTGATGTGAATGAATTAGCCCGTGAAATTGAATCGCGTGTG 241 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 95739 GCAATTACTGAGTTAATTTGTGATGTGAATGAATTAGCCCGTGAAATTGAATCGCGTGTG 95798 Query: 240 AAACATGAAACCCGTGCTACCATTTTAGGTCATATTCAACGTGGCGGTACGCCTTGCGCA 181 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 95799 AAACATGAAACCCGTGCTACCATTTTAGGTCATATTCAACGTGGCGGTACGCCTTGCGCA 95858 Query: 180 TTTGACCGTATTTTAGGTTCACGTATGGGCGTTTATGCGGTTGATTTATTAATGCAAGGT 121 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 95859 TTTGACCGTATTTTAGGTTCACGTATGGGCGTTTATGCGGTTGATTTATTAATGCAAGGT 95918 Query: 120 AAAGGTGGCTATTGCGTTGGTATTCAAAATGAACAATTAGTTCACCACGATATTATTGAT 61 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 95919 AAAGGTGGCTATTGCGTTGGTATTCAAAATGAACAATTAGTTCACCACGATATTATTGAT 95978 Query: 60 GCAATCAACAATATGCGCCGTGAATTTAAAGCGGATTGGTTAGCATTATCGAAACGTTTA 1 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 95979 GCAATCAACAATATGCGCCGTGAATTTAAAGCGGATTGGTTAGCATTATCGAAACGTTTA 96038Следовательно, в записи AE004439 последовательность имеет координаты 95079-96038.
FT CDS 95079..96044 FT /codon_start=1 FT /transl_table=11 FT /gene="pfkA" FT /locus_tag="PM0069" FT /product="PfkA" FT /db_xref="GOA:Q9CPH2" FT /db_xref="HSSP:2PFK" FT /db_xref="InterPro:IPR015912" FT /db_xref="UniProtKB/Swiss-Prot:Q9CPH2" FT /protein_id="AAK02153.1" FT /translation="MIKKIAVLTSGGDAPGMNAAIRGVVRSALAAGLEVYGIYEGYYGL FT YHNKVKQMTRYSVSDIINRGGTFLGSARFPEFKDPAVRAKCAEILRSHGIDALVVIGGD FT GSYMGAKLLTEEHGFPCVGIPGTIDNDVAGTDYTIGYQTALQTAVEAIDRLRDTSSSHQ FT RISIVEIMGRHCSDLAISAGIAGGCEYIVASEVEFNREELIQQIERSIIKGKRHAIIAI FT TELICDVNELAREIESRVKHETRATILGHIQRGGTPCAFDRILGSRMGVYAVDLLMQGK FT GGYCVGIQNEQLVHHDIIDAINNMRREFKADWLALSKRLD"
Необходимо создать в своей рабочей директории fasta-файл с последовательностью из генома E.coli, кодирующей мой белок K6PF1_ECOLI.
Мной была выбрана запись L19201 EMBL.
Эта запись была сохранена в файл с помощью команды
entret embl:L19201 -auto
Кодирующая последовательность была вырезана в отдельный файл:
seqret "embl:L19201[69185..70147]"На выходе получился файл l19201.fasta
blastall -p blastn -d pm -i l19201.fasta > l19201.out
Полученный в итоге файл: l19201.out
По результатам работы программы составим таблицу:
Программа | TBLASTN | BLASTN |
Число находок (e-value<0.001 ) | 1 | 0 |
E-value лучшей находки | e-129 | 0.028 |
Координаты выравнивания | 8494-9453 | 5351-5368 |
Длины выравниваний | 959 | 17 |
Название геномной последовательности | AE006042 | AE006114 |
Из таблицы видно, что поиск по аминокислотной последовательности намного лучше, чем по нуклеотидной последовательности. Результаты поиска blastn отличаются от поиска tblastn значительно большими e-value находок (менее достоверными), большим числом находок (выравниваний получается больше, потому что 3 нуклеотида соответсвуют 1ой аминокислоте) и меньшей длиной выравнивания. Это может происходить из-за того, что белки кодируются 20 буквами, а гены 4.