1. Исходный белок MLTA_ECOLI.
2. Исходный геном pm_genome.fasta - полный геном бактерии Pasteurella multocida.
Поиск в геноме участков, кодирующих белки, похожие на заданный
Создание индексных файлов пакета BLAST для поиска по заданному геному:
formatdb -i pm_genome.fasta -p F -n pm
Где параметры:
-i = файл для которого создаются индексные файлы.
-p = тип файла (T- белковый, F-нуклеотидный)
-n = базовое имя
Поиск по TBLASTN с порогом на E-value 0,001:
blastall -p tblastn -d pm -i mlta_ecoli.fasta -e 0.001 -o output.txt
Где прараметры:
-p = имя программы из пакета BLAST
-d = базовое имя индексных файлов
-i = имя файла, содержащего то, что будем искать в фаста-формате.
-o = имя выходного файла
-e = порог E-value
Поиск гомологов белка mlta_ecoli в геноме бактерии Pasteurella multocida.
Число находок с Е-value<0,001 | 1 |
Характеристика лучшей находки: | Score = 332 bits (851), Identities = 172/356 (48%), Positives = 245/356 (68%), Gaps = 17/356 (4%), Frame = -3 |
E-value находки | 2E-92 |
Название геномной последовательности | AE006132 |
Координаты выравнивания(-ий) в найденной последовательности | 4208-5251 |
Нахождение записи EMBL по последовательности с помощью программы BLASTN
Найденная в предыдущем задании последовательность была вырезана в файл командой:
seqret "pm_genome.fasta:ae006132[4208:5251]" ae006132.fasta
Была получен файл ae006132.fasta
На сайте EBI (http://www.ebi.ac.uk/Tools/) был запущен поиск этой последовательности в банке "EMBL standard prokaryote".
У первой находки был выбран режим "Show Alignments".
Для первой находки была выдана следующая информация:
>EM_PRO:AE004439; AE004439 Pasteurella multocida subsp. multocida str. Pm70, complete genome.
Length = 2257487
Score = 1884 bits (2088), Expect = 0.0
Identities = 1044/1044 (100%)
Strand = Plus / Plus
Query: 1 ttgtaatacccacacacgtccataatgttttgataatcctgcaatatgacccgcgtcatc 60 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 1094964 ttgtaatacccacacacgtccataatgttttgataatcctgcaatatgacccgcgtcatc 1095023 Query: 61 gccaatcccacgatataaatcaaagtgatgccctttcactgccccacccacatcgagcgc 120 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 1095024 gccaatcccacgatataaatcaaagtgatgccctttcactgccccacccacatcgagcgc 1095083 Query: 121 gaccatcaaatgcatttgatgctcacctgtccaattaccgtgtttatccatttgaggcac 180 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 1095084 gaccatcaaatgcatttgatgctcacctgtccaattaccgtgtttatccatttgaggcac 1095143 Query: 181 ttccaccaaaagcaagctccctaaaggcacaacatttcgatctgccgcaagtgacgccat 240 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 1095144 ttccaccaaaagcaagctccctaaaggcacaacatttcgatctgccgcaagtgacgccat 1095203 Query: 241 cggtactaaaggcacaccggctgcacctttgactttaccgtaaggatcatttttaaaata 300 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 1095204 cggtactaaaggcacaccggctgcacctttgactttaccgtaaggatcatttttaaaata 1095263 Query: 301 aacataagattcattgcgttctaataaggcttgtaagcgagaaggattcgcttttgccca 360 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 1095264 aacataagattcattgcgttctaataaggcttgtaagcgagaaggattcgcttttgccca 1095323 Query: 361 atcacgaatcgcttgaatcgacattttctctttagcaatttcgccatcttctactaataa 420 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 1095324 atcacgaatcgcttgaatcgacattttctctttagcaatttcgccatcttctactaataa 1095383 Query: 421 acgtccgacactggtataaggaaaaccattttgtccagcataagcaaaataatttagctt 480 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 1095384 acgtccgacactggtataaggaaaaccattttgtccagcataagcaaaataatttagctt 1095443 Query: 481 accgtccccaaaatccacatagccacttccttgaacgcctaataaaaagttatctaacat 540 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 1095444 accgtccccaaaatccacatagccacttccttgaacgcctaataaaaagttatctaacat 1095503 Query: 541 agaatcactgtaagccagctccaacccttttcgtgctaaagcacctgcatacacttgggc 600 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 1095504 agaatcactgtaagccagctccaacccttttcgtgctaaagcacctgcatacacttgggc 1095563 Query: 601 tcgggttacacgtttttgtttaggtaacgcgtaaataggttgattatacttcccttgttg 660 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 1095564 tcgggttacacgtttttgtttaggtaacgcgtaaataggttgattatacttcccttgttg 1095623 Query: 661 actacggcgagcatgaataaccggagaataataccccgtcattaaaacattttgatagcc 720 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 1095624 actacggcgagcatgaataaccggagaataataccccgtcattaaaacattttgatagcc 1095683 Query: 721 atcaaaacctttcattaattgcggctgaataccaaattgtgctaaatcatgcatattacc 780 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 1095684 atcaaaacctttcattaattgcggctgaataccaaattgtgctaaatcatgcatattacc 1095743 Query: 781 acccgctaagatccaattagtcactttgacatagctgtgatcgaattgattggcgagctt 840 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 1095744 acccgctaagatccaattagtcactttgacatagctgtgatcgaattgattggcgagctt 1095803 Query: 841 attcgaatagctacgcacatgcgataattgggtcaaaaaatcaccttgattaatcaccgc 900 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 1095804 attcgaatagctacgcacatgcgataattgggtcaaaaaatcaccttgattaatcaccgc 1095863 Query: 901 actttgattttctactttcgcgaccggagtaaacactgagtgttgatattgacgcccctc 960 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 1095864 actttgattttctactttcgcgaccggagtaaacactgagtgttgatattgacgcccctc 1095923 Query: 961 gtattttgcaccaaatttttgcggatcagcctgattgtttcctgcacttcctctaggctg 1020 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 1095924 gtattttgcaccaaatttttgcggatcagcctgattgtttcctgcacttcctctaggctg 1095983 Query: 1021 cgagctacaagcaaccaacaatgc 1044 |||||||||||||||||||||||| Sbjct: 1095984 cgagctacaagcaaccaacaatgc 1096007
Следовательно, в записи AE004439 последовательность имеет координаты 1094964-1095983.
О соответствующем участке в поле FT имеется следующая информация:
FT CDS complement(1094961..1096085) FT /codon_start=1 FT /transl_table=11 FT /locus_tag="PM0928" FT /product="unknown" FT /db_xref="GOA:Q9CMA6" FT /db_xref="InterPro:IPR005300" FT /db_xref="UniProtKB/TrEMBL:Q9CMA6" FT /protein_id="AAK03012.1" FT /translation="MPHYYLGKNMLFQTKNLVKLTALCSAALLVACSSQPRGSAGNNQA FT DPQKFGAKYEGRQYQHSVFTPVAKVENQSAVINQGDFLTQLSHVRSYSNKLANQFDHSY FT VKVTNWILAGGNMHDLAQFGIQPQLMKGFDGYQNVLMTGYYSPVIHARRSQQGKYNQPI FT YALPKQKRVTRAQVYAGALARKGLELAYSDSMLDNFLLGVQGSGYVDFGDGKLNYFAYA FT GQNGFPYTSVGRLLVEDGEIAKEKMSIQAIRDWAKANPSRLQALLERNESYVYFKNDPY FT GKVKGAAGVPLVPMASLAADRNVVPLGSLLLVEVPQMDKHGNWTGEHQMHLMVALDVGG FT AVKGHHFDLYRGIGDDAGHIAGLSKHYGRVWVLQ"
Координаты CDS: 1094961..1096085
Участок соответствует записи Q9CMA6 банка UniProt.
Поиск гомологов с помощью программы BLASTN
Список записей EMBL с последовательностью из генома E.coli, кодирующей белок MLTA_ECOLI, был получен при выполнении прошлого задания. Откуда я выбрал запись U32224 EMBL.
Эта запись была сохранена в файл с помощью команды
entret embl:U32224 -auto
В записи содержались координаты CDS: 211..1308
Кодирующая последовательность была вырезана в отдельный файл:
seqret "embl:U32224[211:1308]"
Был получен файл u32224.fasta.
Он был использован для программы BLASTN для поиска в геноме Salmonella typhimurium (как и в первом задании)
Для этого была выполнена следующая команда:
blastall -p blastn -d pm -i u32224.fasta -o output2.txt
Был получен файл output2.txt
Число находок с Е-value<0,001 | 0 |
Число находок с Е-value<10 | 23 |
Характеристика лучшей находки: |
|
E-value находки | 0.49 |
Название геномной последовательности | Pasteurella multocida subsp. multocida str. Pm70 section 179 of 204 of the complete genome |
Координаты выравнивания найденной последовательности | 11718-11733 |
Посредством поиска BLASTN были найдены только короткие нуклеотидные участки (примерно от 14 до 18 нуклеотидов), Е-value которых была намного больше чем в первом поиске.