StandaloneBLAST

Задание 1.

В этом задании необходимо определить закодированы ли похожие белки на MRGA_BACSU в геноме другого организма (G.thermodenitrificans), не пользуясь аннотацией генома. С помощью команды makeblastdb -in gt_genome.fasta -dbtype nucl создадим базу из файлов, с которыми будем работать. Для поиска используем команду: tblastn -query MRGA_BACSU.fasta -db gt_genome.fasta -out blast.out -evalue 0.001. Результаты приведены в таблице ниже:

Число находок с E-value < 0,001	1
E-value лучшей находки	8e-42
Название последовательности с лучшей находкой	> CP000557 CP000557.1 Geobacillus thermodenitrificans NG80-2, complete genome.
Координаты лучшей находки (от-до)	2877483-2877073
Доля последовательности белка, вошедшая в выравнивание с лучшей находкой	0.89

Задание 2.

Используем следующую команду: blastn -task blastn -query trna_bacsu.fasta -db gt_genome.fasta -out blast2.out -evalue 0.01 -outfmt 7. Получим скрипт с помощью grep и Excel. Файл с результатами: trna.xlsx

Задание 3.

При запускании команды с измененными параметрами (измененение весовой матрицы) подберем значения -gapopen и -gapextend, предложено 3 варианта: 10 и 6, 8 и 6, 25 и 10. Используем следующие команды:

blastn -task blastn -query trna_bacsu.fasta -db gt_genome.fasta -out file1.out -evalue 0.01 -outfmt 7 -reward 5 -penalty -4 -gapopen 25 -gapextend 10

blastn -task blastn -query trna_bacsu.fasta -db gt_genome.fasta -out file2.out -evalue 0.01 -outfmt 7 -reward 5 -penalty -4 -gapopen 25 -gapextend 10 -word_size 4

Файл с результатами: trna.xlsx

Задание 4.

При изменении параметра расчета веса выравнивания количество найденных гомологов, в целом, немного увеличивается, а при изменении длины слова - увеличиваются несколько больше. Была найдена треониновая т-РНК - BSn5_t20966 tRNA-Thr в паре с участком CP000557 553263..553335, которая была в выдаче при изменении длины слова, но не присутствовала в остальных файлах. Возможно, это произошло потому, что при параметре с уменьшенной длиной слова находится гораздо большо хитов, т.к. маленькое слово уменьшает точность выравнивания.

 
Полученное выравнивание с помощью програмы needle:
 
#=======================================                                         
#                                                                                
# Aligned_sequences: 2                                                           
# 1: BSn5_t20996                                                                 
# 2: CP000557.1                                                                  
# Matrix: EDNAFULL                                                               
# Gap_penalty: 10.0                                                              
# Extend_penalty: 0.5                                                            
#                                                                                
# Length: 73                                                                     
# Identity:      62/73 (84.9%)                                                   
# Similarity:    62/73 (84.9%)                                                   
# Gaps:           0/73 ( 0.0%)                                                   
# Score: 266.0                                                                   
#                                                                                
#                                                                                
#=======================================                                         
                                                                                 
BSn5_t20996        1 gccggtgtagctcaattggtagagcgcctgacttgtaagcagtggattgg     50   
                     |||||..||||||||||||||||||..|||||||||||.||||.|.|||.          
CP000557.1         1 gccggcttagctcaattggtagagcaactgacttgtaatcagtaggttgc     50   
                                                                                 
BSn5_t20996       51 gggttcaagtcctcttgccggca     73                              
                     |||||||||||||...|||||||                                     
CP000557.1        51 gggttcaagtcctgcagccggca     73                              

                                                                                 
                                                                                 

Выравнивание получилось очень хорошим, т.к. участок, найденный в G.thermodenitrificans 
соответствует Thr-тРНК, т.к. по данным в записи embl: 
CP000557 553263..553335 соответствует участку генома, отвечающему за Thr-тРНК. 
 



Задание 5.


Время работы при стандарнтных параметрах: 0m0.376s

При изменении параметров матрицы расчета:  0m0.675s    

При изменении длины слова: 0m0.791s                

Что естественно, при стандартных параметрах программа работает быстрее, 
а при постепенном добавлении параметров, 
она затрачивает время чуть-чуть большее.