Главная страница

Программы пакета BLAST для работы с нуклеотидными последовательностями



1. Создание индексных файлов для работы с локальными версиями программ пакета BLAST.

Для поиска по геномам Vibrio cholerae, Pseudomonas aerinosa и Pasteusella multocida были созданы индексные файлы.
Указаны следующие параметры:
- i - полное имя входного файла
- p - тип молекулы: белок (Т) или нуклеотид (F)
- n - базовое имя для файлов BLAST
Команды выглядят следующим образом:
formatdb -i vc_genome.fasta - p F -n vc
formatdb -i pa_genome.fasta - p F -n pa
formatdb -i pm_genome.fasta - p F -n pm
Для каждого генома было получено по 3 индексных файла с расширениями nsq, nhr и nin.

2. Поиск в неаннотированном геноме генов, кодирующих белки, похожие на белок FABI_ECOLI

Для поиска использовалась программа TBLASTN, предназначенная для поиска в неаннотированных геномах гомологов изучаемого белка по последовательности данного белка.
Указаны следующие параметры:
- p - программа из пакета BLAST
- d - базовое имя индексного файла
- о - имя файла на выходе
Сами команды следующие:
blastall -p tblastn -d vc -i fabi.fasta -o vc_res
blastall -p tblastn -d pa -i fabi.fasta -o pa_res
blastall -p tblastn -d pm -i fabi.fasta -o pm_res
Для получения результатов были изучены файлы vc_res, pa_res и pm_res, а также соответствующие документы EMBL (их можно получить с помощью команды entret или в SRS).
3. Аналогичный поиск сразу в нескольких геномах.

Поиск гомологов производится сразу в трех геномах. Были введены следующие переменные:
genpath=/home/export/samba/public/tmp - путь к файлам.
genomes="$genpath/vc_genome.fasta $genpath/pa_genome.fasta $genpath/pm_genome.fasta" - файлы, в которых содержатся геномы.
Команда для поиска гомологов:
formatdb -i "$genomes" -n 3g -p F
blastall -p tblastn -d 3g -i fabi.fasta -o 3gfabi

Поиск гомологов FABI_ECOLI Геном Vibrio cholerae Геном Pseudomonas aeruginosa Геном Pasteurella multocida
Характеристика лучшей находки:      
     E-value находки 2e-08 e-100 e-118
  координаты выравнивания(-ий)
в записи генома
10680-9967 874-89 7739-6963
AC соответствующей записи EMBL AE004276 AE006052 AE004607
  Координаты CDS в записи EMBL (если они есть) 9952-10698    
  AC UniProt в записи EMBL (если есть) Q9KQH7    
Число находок с Е-value<0,01
4 24 2
E-value лучшей находки в трех геномах
5e-08 1e-99 e-118
Число находок с Е-value<0,01 в трех геномах
4 24 2


Можно увидеть, что при поиске по трем геномам увеличилось значение E-value для Vibrio cholerae и Pseudomonas aeruginosa. Это связано с увеличением числа случайных последовательностей в большем банке данных (три генома вместо одного) и, следовательно, повышением вероятности нахождения той же последовательности в большем банке по сравнению с меньшим.
Значение E-value для Pasteurella multocida не изменилось (возможно, E-value и отличается, но на незначительную величину, которая не была зарегистрирована).
Полученные выравнивания: 3gfabi
4. Поиск гомологов с помощью программы BLASTN

Для поиска гомологов с помощью BLASTN была выполнена следующая команда:
blastall -p blastn -d 3g -i gene1.fasta -o fabiblastn
Были получены следующие результаты:

                                                                 Score    E
Sequences producing significant alignments:                      (bits) Value

embl|AE006052|AE006052 Pasteurella multocida subsp. multocida st...    62   2e-09
embl|AE004607|AE004607 Pseudomonas aeruginosa PAO1, section 168 ...    62   2e-09
embl|AE004895|AE004895 Pseudomonas aeruginosa PAO1, section 456 ...    34   0.50 
embl|AE006196|AE006196 Pasteurella multocida subsp. multocida st...    32   2.0  
embl|AE004765|AE004765 Pseudomonas aeruginosa PAO1, section 326 ...    32   2.0  
embl|AE004691|AE004691 Pseudomonas aeruginosa PAO1, section 252 ...    32   2.0  
embl|AE004486|AE004486 Pseudomonas aeruginosa PAO1, section 47 o...    32   2.0  
embl|AE004280|AE004280 Vibrio cholerae O1 biovar eltor str. N169...    32   2.0  
embl|AE004110|AE004110 Vibrio cholerae O1 biovar eltor str. N169...    32   2.0  
embl|AE006070|AE006070 Pasteurella multocida subsp. multocida st...    30   7.7  
embl|AE006064|AE006064 Pasteurella multocida subsp. multocida st...    30   7.7  
embl|AE006060|AE006060 Pasteurella multocida subsp. multocida st...    30   7.7  
embl|AE006044|AE006044 Pasteurella multocida subsp. multocida st...    30   7.7  
embl|AE004941|AE004941 Pseudomonas aeruginosa PAO1, section 502 ...    30   7.7  
embl|AE004880|AE004880 Pseudomonas aeruginosa PAO1, section 441 ...    30   7.7  
embl|AE004848|AE004848 Pseudomonas aeruginosa PAO1, section 409 ...    30   7.7  
embl|AE004843|AE004843 Pseudomonas aeruginosa PAO1, section 404 ...    30   7.7  
embl|AE004780|AE004780 Pseudomonas aeruginosa PAO1, section 341 ...    30   7.7  
embl|AE004752|AE004752 Pseudomonas aeruginosa PAO1, section 313 ...    30   7.7  
embl|AE004743|AE004743 Pseudomonas aeruginosa PAO1, section 304 ...    30   7.7  
embl|AE004472|AE004472 Pseudomonas aeruginosa PAO1, section 33 o...    30   7.7  
embl|AE004411|AE004411 Vibrio cholerae O1 biovar eltor str. N169...    30   7.7  
embl|AE004345|AE004345 Vibrio cholerae O1 biovar eltor str. N169...    30   7.7  
embl|AE004337|AE004337 Vibrio cholerae O1 biovar eltor str. N169...    30   7.7  
embl|AE004292|AE004292 Vibrio cholerae O1 biovar eltor str. N169...    30   7.7  
embl|AE004199|AE004199 Vibrio cholerae O1 biovar eltor str. N169...    30   7.7  
embl|AE004184|AE004184 Vibrio cholerae O1 biovar eltor str. N169...    30   7.7  

>embl|AE006052|AE006052 Pasteurella multocida subsp. multocida str.
            Pm70 section 19 of 204 of the complete genome.
          Length = 10665

 Score = 61.9 bits (31), Expect = 2e-09
 Identities = 88/107 (82%)
 Strand = Plus / Minus

                                                                        
Query: 649  cgccgtaccgttactattgaagatgtgggtaactctgcggcattcctgtgctccgatctc 708
            |||||||| || || ||||||||||| ||||||||||| || ||| | ||||| ||| | 
Sbjct: 7094 cgccgtactgtgacgattgaagatgtcggtaactctgcagctttcttatgctcagattta 7035

                                                           
Query: 709  tctgccggtatctccggtgaagtggtccacgttgacggcggtttcag 755
              ||| |||||| | |||||||||||||| ||||| | |||||||||
Sbjct: 7034 agtgctggtatcacaggtgaagtggtccatgttgatgccggtttcag 6988



 Score = 32.2 bits (16), Expect = 2.0
 Identities = 73/92 (79%)
 Strand = Plus / Minus

                                                                        
Query: 64   tacggtatcgctcaggcgatgcaccgcgaaggagctgaactggcattcacctaccagaac 123
            ||||||||||| || || ||| | || ||||| || ||||| || ||||| || || || 
Sbjct: 7679 tacggtatcgcacaagcaatgaaacgtgaaggggcagaactcgctttcacgtatcaaaat 7620

                                            
Query: 124  gacaaactgaaaggccgcgtagaagaatttgc 155
            || ||| | ||||| || ||||||||||||||
Sbjct: 7619 gataaattaaaagggcgtgtagaagaatttgc 7588



 Score = 30.2 bits (15), Expect = 7.7
 Identities = 21/23 (91%)
 Strand = Plus / Minus

                                   
Query: 367  agcttcgttgcaatggcaaaagc 389
            ||||| ||||| |||||||||||
Sbjct: 7376 agctttgttgcgatggcaaaagc 7354


>embl|AE004607|AE004607 Pseudomonas aeruginosa PAO1, section 168 of
           529 of the complete genome.
          Length = 10160

 Score = 61.9 bits (31), Expect = 2e-09
 Identities = 43/47 (91%)
 Strand = Plus / Minus

                                                          
Query: 82  atgcaccgcgaaggagctgaactggcattcacctaccagaacgacaa 128
           |||||||| ||||| || |||||||| ||||||||||||||||||||
Sbjct: 796 atgcaccgggaaggcgccgaactggccttcacctaccagaacgacaa 750



 Score = 48.1 bits (24), Expect = 3e-05
 Identities = 51/60 (85%)
 Strand = Plus / Minus

                                                                       
Query: 420 cctgctgaccctttcctaccttggcgctgagcgcgctatcccgaactacaacgttatggg 479
           |||||||||||| |||||||| ||||| || ||  | || |||||||||||||| |||||
Sbjct: 449 cctgctgaccctctcctacctgggcgccgaacggaccatgccgaactacaacgtaatggg 390



 Score = 46.1 bits (23), Expect = 1e-04
 Identities = 26/27 (96%)
 Strand = Plus / Minus

                                      
Query: 346 gcccacgacatcagctcctacagcttc 372
           ||||||||||||||| |||||||||||
Sbjct: 526 gcccacgacatcagcgcctacagcttc 500



 Score = 34.2 bits (17), Expect = 0.50
 Identities = 17/17 (100%)
 Strand = Plus / Minus

                            
Query: 607 ttccgcaaaatgctggc 623
           |||||||||||||||||
Sbjct: 262 ttccgcaaaatgctggc 246



Две лучшие находки имеют одинаковое значение E-value. Эти находки соответствуют лучшим находкам для Pseudomonas aeruginosa и Pasteurella multocida, полученным в предыдущем задании.
Как можно увидеть, E-value данных находок отличается от полученного при поиске с помощью TBLASTN. Это может быть связано с увеличением банка данных из-за следующего: BLASTN работает с нуклеотидными последовательностями, а не с белковыми. Одной аминокислоте может соответствовать несколько кодонов, и нуклеотидные последовательности длиннее белковых (а для большего банка данных больше вероятность найти определенную последовательность и, следовательно, E-value).

О том, что данные находки являются гомологами белка FABI_ECOLI, говорят результаты сравнения выравниваний, полученных с помощью программ TBLASTN и BLASTN.
Для последовательности Pasteurella multocida программой TBLASTN было сделано выравнивание на участке 7739-6963. С помощью программы BLASTN было получено три выравнивания на участках, входящих в состав предыдущего, а именно 7679-7588, 7376-7354 и 7094-6988. Таким образом, гомология наблюдается на одних и тех же участках, т.е. последовательность определяется как гомолог и той, и другой программой. Аналогичные результаты для Pseudomonas aeruginosa - участок выравнивания TBLASTN 874-89, а BLASTN - 796-750, 526-500, 449-390 и 262-246. Появление нескольких выравниваний для отдельных участков, возможно, связано с тем, что BLASTN работает с нуклеотидными последовательностями, у которых на некоторых участках гомология может быть ниже, чем для белков (вырожденность генетического кода дает возможность изменения нуклеотидных последовательностей без изменения белковых).


©Сорочкина Александра