Поиск в геноме участков, кодирующих белки, похожие на заданный

С помощью Standalone BLAST программы tblastn в геноме бактерии Geobacillus thermodenitrificans проведён поиск гомологов белка YojM_BacSu из Bacillus subtilis. Нашёлся 1 гомолог, результаты представлены в таблице 1.
Таблица 1 Поиск гомологов белка YojM_BacSu в геноме G. thermodenitrificans
Число находок с E-value < 0.001 1
E-value лучшей находки 1*10-35
Название последовательности с лучшей находкой CP000557.1 Geobacillus thermodenitrificans NG80-2, complete genome
Координаты лучшей находки 2994751 : 2994272
Доля последовательности белка, вошедшая в выравнивание с лучшей находкой 196*3/3550319 = 0.0165%

Поиск гомологов некодирующих последовательностей программой BLASTN

С помощью программы blastn проведён поиск гомологов всех тРНК Bacillus subtilis BSn5 в геноме бактерии Geobacillus thermodenitrificans. Результаты в файле trna.out . Далее было подсчитано количество гомологов для каждой тРНК (для этой и дальшейших задач использовались скрипты), и результат импортирован в Excel: trna.xls.

Поиск гомологов при изменённых параметрах программы BLASTN

Теперь проведён тот же поиск, но с изменёнными параметрами:

  1. Изменена весовая матрица. А именно следующие параметры приобрели новые значения:
    • -reward 5: бонус за match равен 5
    • -penalty -4: штраф за mismatch равен 4
    • -gapopen 10: штраф за открытие гэпа равен 10
    • -gapextend 6: штраф за продление гэпа равен 6

    Запрос имеет вид: blastn -task blastn -query /P/y12/term3/block3/tRNA/trna_bacsu.fasta -db gt.fasta -evalue 0.01 -outfmt 6 -reward 5 -penalty -4 -gapopen 10 -gapextend 6 -out trna_rp.out

  2. Изменена весовая матрица (тем же образом) и длина слова для поиска выставлена минимальной - 4
    Запрос имеет вид: blastn -task blastn -query /P/y12/term3/block3/tRNA/trna_bacsu.fasta -db gt.fasta -evalue 0.01 -outfmt 6 -reward 5 -penalty -4 -gapopen 10 -gapextend 6 -word_size 4 -out trna_rpws.out

  3. Изменена только длина слова для поиска: на 4 нуклеотида
    Запрос имеет вид: blastn -task blastn -query /P/y12/term3/block3/tRNA/trna_bacsu.fasta -db gt.fasta -evalue 0.01 -outfmt 6 -word_size 4 -out trna_ws.out

Для каждого случая подсчитано количество гомологов для каждой тРНК. Результаты внесены в файл trna.xls в колонки BLAST RP, BLAST RPWs и BLAST Ws соответсвенно для запросов 1, 2 и 3.

Анализ результатов

Описание различий

Примечательно, что каждый из изменнёных запросов в сумме находит больше гомологов, чем запрос с параметрами по умолчанию. Для того чтобы сравнить полученные результаты, была подсчитана разность между количеством всех найденных гомологов изменнёных запросов и запроса по умолчанию. Обозначим запрос с параметрами по умочание как запрос №0. Тогда:

Как видно из этих цифр, изменение длины слова приводит к большему числу найденных гомологов, чем изменение параметров матрицы. Особенно хорошо эта разница проявляется во втором запросе, когда изменение длины слова на порядок увеличивает число находимых гомологов (но вряд ли они все достоверные).

Сравнение находок

Рассмотрим находку для tRNA-Ser бактерии B.subtilis из запроса №3:

Query= BSn5_t21004 tRNA-Ser                                                        
                                                                                   
Length=91                                                                          

 Score = 51.8 bits (56),  Expect = 6e-08                                           
 Identities = 68/92 (74%), Gaps = 2/92 (2%)                                        
 Strand=Plus/Plus                                                                  
                                                                                   
Query  1       GGAGAAGTACTCAGGTGGCTGAAGAGG-CGCCCCTGCTAAGGGCGTAGGTCGCGTAAGCG  59    
               |||| ||||| || |||| ||||| || ||  | ||  ||  | | |||   || |||          
Sbjct  554027  GGAGGAGTACCCAAGTGGTTGAAGGGGTCGGTCTTGAAAACCGAG-AGGCGTCGCAAGGC  554085
                                                                                   
Query  60      GCGCGAGGGTTCAAATCCCTCCTTCTCCGCCA  91                                
               ||||| |||||| |||||||||| ||||||||                                    
Sbjct  554086  GCGCGGGGGTTCGAATCCCTCCTCCTCCGCCA  554117                            

Она не находится в запросе №0. Это может быть объяснено тем, что в запросе №3 используется наименьшая допустимая длина слова для поиска (4 нуклеотида), т.е. blast будет пробовать выровнять каждые 4 нуклеотида одной последовательности против целой другой последовательности. Таким образом, у программы будет больший шанс найти совпадающий фрагмент, а значит и больше вероятность обнаружить гомолог.

Дополнительное выравнивание

Для дополнительного анализа были вырезаны последовательности tRNA-Ser и найденного гомолога и выровнены программой needle:

Length: 97                  
Identity:      68/97 (70.1%)
Similarity:    68/97 (70.1%)
Gaps:          12/97 (12.4%)
Score: 237.5                

BSn5_t21004        1 ggagaagtactcaggtggctgaagagg-cgcccctg-----ctaagggcg     44
                     ||||.|||||.||.||||.|||||.|| ||..|.||     |.|..||||       
CP000557           1 ggaggagtacccaagtggttgaaggggtcggtcttgaaaaccgagaggcg     50
                                                                              
BSn5_t21004       45 taggtcgcgtaagcggcgcgagggttcaaatccctccttctccgcca     91   
                     |      ||.|||..|||||.||||||.||||||||||.||||||||          
CP000557          51 t------cgcaaggcgcgcgggggttcgaatccctcctcctccgcca     91   

Видно, что выравнивания blast и needle различаются. Сложно сказать почему, скорее всего это связано просто с разницей в алгоритмах, к тому же штраф needle за продление гэпа всего 0.5, из-за чего ему было выгодно менять mismatch на гэп. Если смотреть на это с биологической точки, то эта тРНК содержит вариационную петлю длиной около 20 нуклеотидов (нормальная длина тРНК ~70-75 нуклеотидов). Поэтому понятно, что начало и конец будут достаточно хорошо выравниваться (что мы и видим, особенно конец), а участок в середине - не очень (из-за этого, вероятно, пограммы и дают разные результаты касательно середины последовательности).

Проверка

В записи EMBL полного генома бактерии Geobacillus thermodenitrificans действительно содержится ген в позиции 554027..554117, который действительно кодирует сериновую тРНК:

FT   gene            554027..554117
FT                   /locus_tag="GTNG_t046"
FT   tRNA            554027..554117
FT                   /locus_tag="GTNG_t046"
FT                   /product="tRNA-Ser"
Blast нашёл реальный гомолог.

Время работы программы BLAST

При запуске запросов blastn из заданий 2-3 проверялось время работы программ:

0: user    0m0.312s
   sys     0m0.252s

1: user    0m0.396s
   sys     0m0.248s

2: user    0m40.144s
   sys     0m0.288s

3: user    0m29.908s
   sys     0m0.220s

По логике, время работы программы напрямую зависит от количества находимых гомологов. Так и есть. Однако стоит заметить, что при поиске по слову длиной 4 время работы программы резко возрастает (с 0.3с до 29.9с), в то время как изменение параметров весовой матрицы тоже увеличивает время работы, но совсем незначительно (на ~0.1с). При этом изменение параметров матрицы при поиске по слову длиной 4 даёт прирост ко времени поиска в 10 секунд.