Программы пакета BLAST для работы с нуклеотидными последовательностями.

На главную страницу третьего семестра  
 

Создание индексных файлов.

Краткое описание использованных параметров программы formatdb.

-i      Файл подаваемый на вход программе.
-p     Тип последовательности в файле (T — аминокислотная,F — нуклеотидная).
-n     Первая часть файла с расширением (nhr, nin или nsq).

Для запуска программы использовались следующие команды: formatdb -i vc_genome.fasta -p F -n vc formatdb -i pm_genome.fasta -p F -n pm formatdb -i pa_genome.fasta -p F -n pa После выполнения всех этих команд по каждому полному геному были получены 3 файла.

Команды, использованные для создания индексных файлов.

genpath=/home/export/samba/public/tmp (вспомогательная команда, необходимая для введения новой переменной) genome="$genpath/vc_genome.fasta $genpath/pa_genome.fasta $genpath/pm_genome.fasta" (вспомогательная команда, позволяющая объединить все 3 файла) formardb -i "$genome" -n all -p F (самая главная команда, необходимая для запуска программы formatdb) После выполнения всех этих команд было получено 3 файла (соответственно all.nhr, all.nin, all.nsq) Вспомогательные команды помогли сделать главную команду менее громоздкой.

Поиск в неаннотированном геноме генов, кодирующих белки, похожие на ASSY_ECOLI.

Для выполнения этого задания нам необходима программа, которая служит для поиска гомологов белка в неаннотированных нуклеотидных последовательностях, это выполняет программа TBLASTN.

Команды для запуска программы tblastn.

blastall -p tblastn -d vc -i assy_ecoli.fasta -o result1.txt blastall -p tblastn -d pa -i assy_ecoli.fasta -o result2.txt blastall -p tblastn -d pm -i assy_ecoli.fasta -o result3.txt blastall -p tblastn -d all -i assy_ecoli.fasta -o resultall.txt

Результаты:

Поиск гомологов ASSY_ECOLI. Геном Vibrio cholerae (холерного вибриона) Геном Pseudomonas aeruginosa (синегнойной палочки) Геном Pasteurella multocida
Характеристика лучшей находки:      
     Название лучшей находки и длина последовательности. Vibrio cholerae O1 biovar eltor str. N16961 хромосома I, секция 238-251 комплементарной хромосомы .Длина последовательности= 11523.   Pseudomonas aeruginosa PAO1, секция 334-529 комплементарного генома. Длина последовательности= 10822.   Pasteurella multocida subsp. multocida str. Pm70 секция 87-204 комплементарного генома. Длина последовательности= 11573.  
     E-value находки 6e-31  2e-28  0.0 
     E-value находки при поиске сразу в трех геномах. 2e-30  4e-28  0.0 
  координаты выравнивания
в записи генома
9503-8469 (хромосома I, секция 238-251, комплементарная , т.к. координаты даны в обратном порядке)  1902-739 (секция 334-529 ,комплементарная ,т.к. координаты даны в обратном порядке)  3591-2278 (секция 87-204 ,комплементарная , т.к. координаты даны в обратном порядке) 
AC соответствующей записи EMBL AE004330  AE004773  AE006120 
  Координаты CDS в записи EMBL. 8307-9521 нуклеотиды.  данные отсутствуют  2263-3600 нуклеотиды. 
  AC UniProt в записи EMBL (если есть) Q9KNT8  данные отсутствуют  P57877 
Число находок с Е-value<0,01
1  1  1 
Число находок с Е-value<0,01 при поиске сразу по трем геномам.
1 
Е-value Vibrio cholerae изменился. Оно изменилось с 6e-31 до 2e-30. Е-value Pseudomonas aeruginosa PAO1 изменилось с 2e-28 до 4e-28. Е-value Pasteurella multocida не изменилось. E-value-это количество находок в случайном банке данных с тем же весом выравнивания. При увеличении размера банка данных (1 генома до 3-х геномов) количество таких находок увеличивается. Следовательно увеличивается E-value.

Поиск гомологов с помощью программы BLASTN.

Для выполнения этого задания была выполнена команда: blastall -p tblastn -d all -i m35236.fasta -o gene.txt Лучшей находкой с E-value=0.0 является нуклеотидная последовательность из Pasteurella multocida subsp. multocida str. Pm70 section 87 of 204 of the complete genome. Выравнивание:

Результаты поиска в EMBL.

 BLASTN 2.2.10 [Oct-19-2004]


Reference: Altschul, Stephen F., Thomas L. Madden, Alejandro A. Schaffer, 
Jinghui Zhang, Zheng Zhang, Webb Miller, and David J. Lipman (1997), 
"Gapped BLAST and PSI-BLAST: a new generation of protein database search
programs",  Nucleic Acids Res. 25:3389-3402.

Query= EMBOSS_001
         (1344 letters)

Database: 3g1 
           1077 sequences; 12,619,654 total letters

Searching...done

                                                                 Score    E
Sequences producing significant alignments:                      (bits) Value

embl|AE006120|AE006120 Pasteurella multocida subsp. multocida st...    70   2e-11
embl|AE006134|AE006134 Pasteurella multocida subsp. multocida st...    36   0.22 
embl|AE004534|AE004534 Pseudomonas aeruginosa PAO1, section 95 o...    36   0.22 
embl|AE004330|AE004330 Vibrio cholerae O1 biovar eltor str. N169...    36   0.22 
embl|AE004676|AE004676 Pseudomonas aeruginosa PAO1, section 237 ...    34   0.85 
embl|AE006203|AE006203 Pasteurella multocida subsp. multocida st...    32   3.4  
embl|AE006179|AE006179 Pasteurella multocida subsp. multocida st...    32   3.4  
embl|AE004966|AE004966 Pseudomonas aeruginosa PAO1, section 527 ...    32   3.4  
embl|AE004898|AE004898 Pseudomonas aeruginosa PAO1, section 459 ...    32   3.4  
embl|AE004776|AE004776 Pseudomonas aeruginosa PAO1, section 337 ...    32   3.4  
embl|AE004520|AE004520 Pseudomonas aeruginosa PAO1, section 81 o...    32   3.4  
embl|AE004517|AE004517 Pseudomonas aeruginosa PAO1, section 78 o...    32   3.4  

>embl|AE006120|AE006120 Pasteurella multocida subsp. multocida str.
            Pm70 section 87 of 204 of the complete genome.
          Length = 11573

 Score = 69.9 bits (35), Expect = 2e-11
 Identities = 65/75 (86%)
 Strand = Plus / Minus

                                                                        
Query: 358  gaagatggcgtgaatatctggggtgacggtagcacctacaaaggaaacgatatcgaacgt 417
            |||||||  ||||||||||||||||| || || |||| |||||| || ||||| || |||
Sbjct: 3240 gaagatgatgtgaatatctggggtgatggcagtaccttcaaaggtaatgatattgagcgt 3181

                           
Query: 418  ttctatcgttatggt 432
            |||||||||||||||
Sbjct: 3180 ttctatcgttatggt 3166



 Score = 56.0 bits (28), Expect = 2e-07
 Identities = 94/116 (81%)
 Strand = Plus / Minus

                                                                        
Query: 43   ggtatcgctttttctggcggtctggacaccagtgccgcactgctgtggatgcgacaaaag 102
            |||||||| ||||| || ||| | || |||||||| ||| || | |||||||| ||||| 
Sbjct: 3555 ggtatcgcgttttcaggtggtttagataccagtgcagcattgttatggatgcgtcaaaaa 3496

                                                                    
Query: 103  ggagcggttccttatgcatatactgcaaacctgggccagccagacgaagaggatta 158
            || || ||||||||||| ||||| || ||| | || || ||||| |||||||||||
Sbjct: 3495 ggggctgttccttatgcctataccgcgaacttaggtcaaccagatgaagaggatta 3440



 Score = 54.0 bits (27), Expect = 9e-07
 Identities = 66/79 (83%)
 Strand = Plus / Minus

                                                                        
Query: 547  tacaaaatgtctgtcgaaaaagcctactccacagactccaacatgcttggtgcaacgcat 606
            ||||||||||| || ||||||||||| || ||||| || || ||||| ||||| || |||
Sbjct: 3051 tacaaaatgtcagtggaaaaagcctattcaacagattcaaatatgctaggtgccacccat 2992

                               
Query: 607  gaagcgaaggatctggaat 625
            ||||| || ||||| ||||
Sbjct: 2991 gaagccaaagatcttgaat 2973



 Score = 42.1 bits (21), Expect = 0.003
 Identities = 54/65 (83%)
 Strand = Plus / Minus

                                                                        
Query: 829  gaccagattgaaaaccgtatcatcgaagcgaaaagccgtggtatttacgaagctccgggg 888
            ||||| ||||||||||| || || ||||| |||   ||||||||||| || || ||||||
Sbjct: 2769 gaccaaattgaaaaccgaattattgaagccaaatcgcgtggtatttatgaggcaccgggg 2710

                 
Query: 889  atggc 893
            |||||
Sbjct: 2709 atggc 2705



 Score = 40.1 bits (20), Expect = 0.014
 Identities = 35/40 (87%)
 Strand = Plus / Minus

                                                    
Query: 1197 tgatcgtattggtcaattgaccatgcgtaacctggatatc 1236
            |||||||||||||||||| || ||||| ||| | ||||||
Sbjct: 2398 tgatcgtattggtcaattaacgatgcgcaacttagatatc 2359



 Score = 32.2 bits (16), Expect = 3.4
 Identities = 22/24 (91%)
 Strand = Plus / Minus

                                    
Query: 703  gaagaagtcacagtacgctttgaa 726
            ||||||||||| || |||||||||
Sbjct: 2895 gaagaagtcactgtgcgctttgaa 2872


>embl|AE006134|AE006134 Pasteurella multocida subsp. multocida str.
            Pm70 section 101 of 204 of the complete genome.
          Length = 11667

 Score = 36.2 bits (18), Expect = 0.22
 Identities = 18/18 (100%)
 Strand = Plus / Minus

                              
Query: 712  acagtacgctttgaacaa 729
            ||||||||||||||||||
Sbjct: 9981 acagtacgctttgaacaa 9964


>embl|AE004534|AE004534 Pseudomonas aeruginosa PAO1, section 95 of 529
            of the complete genome.
          Length = 14148

 Score = 36.2 bits (18), Expect = 0.22
 Identities = 18/18 (100%)
 Strand = Plus / Plus

                              
Query: 813  cggcctgggcatgagcga 830
            ||||||||||||||||||
Sbjct: 9356 cggcctgggcatgagcga 9373


>embl|AE004330|AE004330 Vibrio cholerae O1 biovar eltor str. N16961
            chromosome I, section 238 of 251 of the complete
            chromosome.
          Length = 11523

 Score = 36.2 bits (18), Expect = 0.22
 Identities = 18/18 (100%)
 Strand = Plus / Minus

                              
Query: 54   ttctggcggtctggacac 71
            ||||||||||||||||||
Sbjct: 9483 ttctggcggtctggacac 9466


>embl|AE004676|AE004676 Pseudomonas aeruginosa PAO1, section 237 of 529
             of the complete genome.
          Length = 14928

 Score = 34.2 bits (17), Expect = 0.85
 Identities = 17/17 (100%)
 Strand = Plus / Minus

                              
Query: 1048  cgctgggttgccagcca 1064
             |||||||||||||||||
Sbjct: 14816 cgctgggttgccagcca 14800


>embl|AE006203|AE006203 Pasteurella multocida subsp. multocida str. Pm70
             section 170 of 204 of the complete genome.
          Length = 10697

 Score = 32.2 bits (16), Expect = 3.4
 Identities = 16/16 (100%)
 Strand = Plus / Plus

                             
Query: 721   tttgaacaaggtcatc 736
             ||||||||||||||||
Sbjct: 10116 tttgaacaaggtcatc 10131


>embl|AE006179|AE006179 Pasteurella multocida subsp. multocida str.
            Pm70 section 146 of 204 of the complete genome.
          Length = 11375

 Score = 32.2 bits (16), Expect = 3.4
 Identities = 16/16 (100%)
 Strand = Plus / Plus

                            
Query: 34   caacgtattggtatcg 49
            ||||||||||||||||
Sbjct: 1310 caacgtattggtatcg 1325


>embl|AE004966|AE004966 Pseudomonas aeruginosa PAO1, section 527 of
           529 of the complete genome.
          Length = 10821

 Score = 32.2 bits (16), Expect = 3.4
 Identities = 16/16 (100%)
 Strand = Plus / Minus

                           
Query: 56  ctggcggtctggacac 71
           ||||||||||||||||
Sbjct: 655 ctggcggtctggacac 640


>embl|AE004898|AE004898 Pseudomonas aeruginosa PAO1, section 459 of
            529 of the complete genome.
          Length = 10927

 Score = 32.2 bits (16), Expect = 3.4
 Identities = 16/16 (100%)
 Strand = Plus / Plus

                            
Query: 281  ccggcggcctgaccta 296
            ||||||||||||||||
Sbjct: 9732 ccggcggcctgaccta 9747


>embl|AE004776|AE004776 Pseudomonas aeruginosa PAO1, section 337 of
            529 of the complete genome.
          Length = 11673

 Score = 32.2 bits (16), Expect = 3.4
 Identities = 16/16 (100%)
 Strand = Plus / Plus

                            
Query: 309  gccgctgggccgcgcc 324
            ||||||||||||||||
Sbjct: 9975 gccgctgggccgcgcc 9990


>embl|AE004520|AE004520 Pseudomonas aeruginosa PAO1, section 81 of 529
            of the complete genome.
          Length = 12217

 Score = 32.2 bits (16), Expect = 3.4
 Identities = 16/16 (100%)
 Strand = Plus / Plus

                            
Query: 378  gggtgacggtagcacc 393
            ||||||||||||||||
Sbjct: 3332 gggtgacggtagcacc 3347


>embl|AE004517|AE004517 Pseudomonas aeruginosa PAO1, section 78 of
           529 of the complete genome.
          Length = 10822

 Score = 32.2 bits (16), Expect = 3.4
 Identities = 16/16 (100%)
 Strand = Plus / Minus

                           
Query: 226 caactggtggccgaag 241
           ||||||||||||||||
Sbjct: 221 caactggtggccgaag 206


  Database: 3g1
    Posted date:  Oct 2, 2006  2:39 AM
  Number of letters in database: 12,619,654
  Number of sequences in database:  1077
  
Lambda     K      H
    1.37    0.711     1.31 

Gapped
Lambda     K      H
    1.37    0.711     1.31 


Matrix: blastn matrix:1 -3
Gap Penalties: Existence: 5, Extension: 2
Number of Hits to DB: 10,738
Number of Sequences: 1077
Number of extensions: 10738
Number of successful extensions: 17
Number of sequences better than 10.0: 12
Number of HSP's better than 10.0 without gapping: 12
Number of HSP's successfully gapped in prelim test: 0
Number of HSP's that attempted gapping in prelim test: 0
Number of HSP's gapped (non-prelim): 17
length of query: 1344
length of database: 12,619,654
effective HSP length: 17
effective length of query: 1327
effective length of database: 12,601,345
effective search space: 16721984815
effective search space used: 16721984815
T: 0
A: 0
X1: 11 (21.8 bits)
X2: 15 (29.7 bits)
S1: 12 (24.3 bits)
S2: 16 (32.2 bits)
Программа BlastN служит для: Поиска последовательности в банке Предсказания транскрибируемых участков (проба - участок генома; банк - транскрипты) И непригодна для поиска сколько-нибудь удаленных гомологов. E-value лучших находок BLASTN выше значений e-value лучших находок TBLASTN (для генома Pasteurella multocida соответственно и 2e-11). Это может быть обусловлено несколькими причинами: увеличением размера банка (каждая аминокислота кодируется тремя н.п.)и тем, что нуклеотидов в пять раз меньше, чем аминокислот. В поле FT указаны координаты CDS (3591-2278, т.к. комплементарна), старт кодон 1, таблица генетического кода 11, кодируемый белок - геномная ДНК. В поле SQ имеется нуклеотидная последовательность.


©Трембицкая Влада