Программы пакета BLAST для работы с нуклеотидными последовательностями.

1. Исходный белок MLTA_ECOLI.
2. Исходный геном pm_genome.fasta - полный геном бактерии Pasteurella multocida.
Поиск в геноме участков, кодирующих белки, похожие на заданный

Создание индексных файлов пакета BLAST для поиска по заданному геному:
formatdb -i pm_genome.fasta -p F -n pm

Где параметры:
-i = файл для которого создаются индексные файлы.
-p = тип файла (T- белковый, F-нуклеотидный)
-n = базовое имя

Поиск по TBLASTN с порогом на E-value 0,001:
blastall -p tblastn -d pm -i mlta_ecoli.fasta -e 0.001 -o output.txt

Где прараметры:
-p = имя программы из пакета BLAST
-d = базовое имя индексных файлов
-i = имя файла, содержащего то, что будем искать в фаста-формате.
-o = имя выходного файла
-e = порог E-value

Поиск гомологов белка mlta_ecoli в геноме бактерии Pasteurella multocida.

Число находок с Е-value<0,001 1
Характеристика лучшей находки:

Score =  332 bits (851), Identities = 172/356 (48%), Positives = 245/356 (68%), Gaps = 17/356 (4%), Frame = -3

E-value находки  2E-92
Название геномной последовательности AE006132
Координаты выравнивания(-ий) в найденной последовательности 4208-5251

 

Нахождение записи EMBL по последовательности с помощью программы BLASTN

Найденная в предыдущем задании последовательность была вырезана в файл командой:

seqret "pm_genome.fasta:ae006132[4208:5251]" ae006132.fasta

Была получен файл ae006132.fasta

На сайте EBI (http://www.ebi.ac.uk/Tools/) был запущен поиск этой последовательности в банке "EMBL standard prokaryote".
У первой находки был выбран режим "Show Alignments".
Для первой находки была выдана следующая информация:

>EM_PRO:AE004439; AE004439 Pasteurella multocida subsp. multocida str. Pm70, complete genome.
Length = 2257487

Score = 1884 bits (2088), Expect = 0.0
Identities = 1044/1044 (100%)
Strand = Plus / Plus

  Query: 1       ttgtaatacccacacacgtccataatgttttgataatcctgcaatatgacccgcgtcatc 60
               ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 1094964 ttgtaatacccacacacgtccataatgttttgataatcctgcaatatgacccgcgtcatc 1095023

                                                                           
Query: 61      gccaatcccacgatataaatcaaagtgatgccctttcactgccccacccacatcgagcgc 120
               ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 1095024 gccaatcccacgatataaatcaaagtgatgccctttcactgccccacccacatcgagcgc 1095083

                                                                           
Query: 121     gaccatcaaatgcatttgatgctcacctgtccaattaccgtgtttatccatttgaggcac 180
               ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 1095084 gaccatcaaatgcatttgatgctcacctgtccaattaccgtgtttatccatttgaggcac 1095143

                                                                           
Query: 181     ttccaccaaaagcaagctccctaaaggcacaacatttcgatctgccgcaagtgacgccat 240
               ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 1095144 ttccaccaaaagcaagctccctaaaggcacaacatttcgatctgccgcaagtgacgccat 1095203

                                                                           
Query: 241     cggtactaaaggcacaccggctgcacctttgactttaccgtaaggatcatttttaaaata 300
               ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 1095204 cggtactaaaggcacaccggctgcacctttgactttaccgtaaggatcatttttaaaata 1095263

                                                                           
Query: 301     aacataagattcattgcgttctaataaggcttgtaagcgagaaggattcgcttttgccca 360
               ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 1095264 aacataagattcattgcgttctaataaggcttgtaagcgagaaggattcgcttttgccca 1095323

                                                                           
Query: 361     atcacgaatcgcttgaatcgacattttctctttagcaatttcgccatcttctactaataa 420
               ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 1095324 atcacgaatcgcttgaatcgacattttctctttagcaatttcgccatcttctactaataa 1095383

                                                                           
Query: 421     acgtccgacactggtataaggaaaaccattttgtccagcataagcaaaataatttagctt 480
               ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 1095384 acgtccgacactggtataaggaaaaccattttgtccagcataagcaaaataatttagctt 1095443

                                                                           
Query: 481     accgtccccaaaatccacatagccacttccttgaacgcctaataaaaagttatctaacat 540
               ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 1095444 accgtccccaaaatccacatagccacttccttgaacgcctaataaaaagttatctaacat 1095503

                                                                           
Query: 541     agaatcactgtaagccagctccaacccttttcgtgctaaagcacctgcatacacttgggc 600
               ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 1095504 agaatcactgtaagccagctccaacccttttcgtgctaaagcacctgcatacacttgggc 1095563

                                                                           
Query: 601     tcgggttacacgtttttgtttaggtaacgcgtaaataggttgattatacttcccttgttg 660
               ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 1095564 tcgggttacacgtttttgtttaggtaacgcgtaaataggttgattatacttcccttgttg 1095623

                                                                           
Query: 661     actacggcgagcatgaataaccggagaataataccccgtcattaaaacattttgatagcc 720
               ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 1095624 actacggcgagcatgaataaccggagaataataccccgtcattaaaacattttgatagcc 1095683

                                                                           
Query: 721     atcaaaacctttcattaattgcggctgaataccaaattgtgctaaatcatgcatattacc 780
               ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 1095684 atcaaaacctttcattaattgcggctgaataccaaattgtgctaaatcatgcatattacc 1095743

                                                                           
Query: 781     acccgctaagatccaattagtcactttgacatagctgtgatcgaattgattggcgagctt 840
               ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 1095744 acccgctaagatccaattagtcactttgacatagctgtgatcgaattgattggcgagctt 1095803

                                                                           
Query: 841     attcgaatagctacgcacatgcgataattgggtcaaaaaatcaccttgattaatcaccgc 900
               ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 1095804 attcgaatagctacgcacatgcgataattgggtcaaaaaatcaccttgattaatcaccgc 1095863

                                                                           
Query: 901     actttgattttctactttcgcgaccggagtaaacactgagtgttgatattgacgcccctc 960
               ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 1095864 actttgattttctactttcgcgaccggagtaaacactgagtgttgatattgacgcccctc 1095923

                                                                           
Query: 961     gtattttgcaccaaatttttgcggatcagcctgattgtttcctgcacttcctctaggctg 1020
               ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 1095924 gtattttgcaccaaatttttgcggatcagcctgattgtttcctgcacttcctctaggctg 1095983

                                       
Query: 1021    cgagctacaagcaaccaacaatgc 1044
               ||||||||||||||||||||||||
Sbjct: 1095984 cgagctacaagcaaccaacaatgc 1096007

  

Следовательно, в записи AE004439 последовательность имеет координаты 1094964-1095983.
О соответствующем участке в поле FT имеется следующая информация:

 

 
FT   CDS             complement(1094961..1096085)
FT                   /codon_start=1
FT                   /transl_table=11
FT                   /locus_tag="PM0928"
FT                   /product="unknown"
FT                   /db_xref="GOA:Q9CMA6"
FT                   /db_xref="InterPro:IPR005300"
FT                   /db_xref="UniProtKB/TrEMBL:Q9CMA6"
FT                   /protein_id="AAK03012.1"
FT                   /translation="MPHYYLGKNMLFQTKNLVKLTALCSAALLVACSSQPRGSAGNNQA
FT                   DPQKFGAKYEGRQYQHSVFTPVAKVENQSAVINQGDFLTQLSHVRSYSNKLANQFDHSY
FT                   VKVTNWILAGGNMHDLAQFGIQPQLMKGFDGYQNVLMTGYYSPVIHARRSQQGKYNQPI
FT                   YALPKQKRVTRAQVYAGALARKGLELAYSDSMLDNFLLGVQGSGYVDFGDGKLNYFAYA
FT                   GQNGFPYTSVGRLLVEDGEIAKEKMSIQAIRDWAKANPSRLQALLERNESYVYFKNDPY
FT                   GKVKGAAGVPLVPMASLAADRNVVPLGSLLLVEVPQMDKHGNWTGEHQMHLMVALDVGG
FT                   AVKGHHFDLYRGIGDDAGHIAGLSKHYGRVWVLQ"

Координаты CDS: 1094961..1096085
Участок соответствует записи Q9CMA6 банка UniProt.

Поиск гомологов с помощью программы BLASTN

Список записей EMBL с последовательностью из генома E.coli, кодирующей белок MLTA_ECOLI, был получен при выполнении прошлого задания. Откуда я выбрал запись U32224 EMBL.
Эта запись была сохранена в файл с помощью команды
entret embl:U32224 -auto

В записи содержались координаты CDS: 211..1308
Кодирующая последовательность была вырезана в отдельный файл:
seqret "embl:U32224[211:1308]"

Был получен файл u32224.fasta.

Он был использован для программы BLASTN для поиска в геноме Salmonella typhimurium (как и в первом задании)

Для этого была выполнена следующая команда:
blastall -p blastn -d pm -i u32224.fasta -o output2.txt
Был получен файл output2.txt

Число находок с Е-value<0,001 0
Число находок с Е-value<10 23
Характеристика лучшей находки: 
E-value находки 
0.49
Название геномной последовательности
Pasteurella multocida subsp. multocida str. Pm70 section 179
of 204 of the complete genome
Координаты выравнивания найденной последовательности
11718-11733

Посредством поиска BLASTN были найдены только короткие нуклеотидные участки (примерно от 14 до 18 нуклеотидов), Е-value которых была намного больше чем в первом поиске.