Standalone BLAST

Задание 1. Поиск в геноме участков, кодирующих белки, похожие на заданный.

Для белка HUTU_BACSU из генома Bacillus subtilis необходимо определить, закодированы ли похожие белки в геноме Geobacillus thermodenitrificans, не пользуясь аннотацией генома.
Сначала создаем базу данных:
makeblastdb -in gt_genome.fasta -dbtype nucl
Далее проводим поиск похожих белков: tblastn -query hutu_bacsu.fasta -db gt_genome.fasta -out blast.out -evalue 0.001
Результат представлен в таблице:

Поиск гомологов белка HUTU_BACSU в геноме Geobacillus thermodenitrificans.
Число находок с E-value < 0,0011
E-value лучшей находки0.0
Название последовательности с лучшей находкойCP000557 CP000557.1 Geobacillus thermodenitrificans NG80-2, complete genome.
Координаты лучшей находки (от-до)1290683-1292326
Доля последовательности вашего белка, вошедшая в выравнивание с лучшей находкой82%

Задание 2. Поиск гомологов некодирующих последовательностей программой BLASTN.

Для того, чтобы определить, сколько гомологов каждой из тРНК находит программа BLASTN в геноме родственной бактерии, сначала используем команду:
blastn -task blastn -query trna_bacsu.fasta -db gt_genome.fasta -out trna.out -evalue 0.01 -outfmt 7
В полученном файле перечислены найденные тРНК.
Далее с помощью команды grep были получены файлы со списком названий тРНК и со списком количества найденных хитов к соответствующим тРНК:
grep ">" trna_bacsu.fasta >grep.fasta
grep "hits found" trna.out >hits.fasta
Из полученных файлов был составлен файл Excel

Задание 3.Поиск гомологов при изменённых параметрах программы BLASTN.

Предыдущее задание было повторено 2 раза с некоторыми изменениями:
blastn -task blastn -query trna_bacsu.fasta -db gt_genome.fasta -out trna2.out -evalue 0.01 -outfmt 7 -reward 5 -penalty -4 -gapopen 25 -gapextend 10
При изменении весовой матрицы (параметры -reward и -penalty)было необходимо поменять значения -gapopen и -gapextend, значения которых были предложены программой.
blastn -task blastn -query trna_bacsu.fasta -db gt_genome.fasta -out trna2.out -evalue 0.01 -outfmt 7 -reward 5 -penalty -4 -gapopen 25 -gapextend 10 -word_size 4
В последнем случае был установлен параметр -word_size 4 (его минимальное значение).
Полученные данные были добавлены в таблицу результатов второго задания: trna+.xlsx

Задание 4. Анализ результатов.

При изменении весовой матрицы количество найденных гомологов заметно увеличивается.

Была взята фенилаланиновая т-РНК BSn5_t20896 tRNA-Phe (1308206..1308263), которая была только в выдаче с измененной длиной слова, но не присутствовала в остальных файлах. Ее последовательность была получена с помощью команды seqret -sask и выровнена с последовательностью, кодирующей такую же тРНК в геноме B.subtilis. Полученное выравнивание:

########################################
# Program: needle
# Rundate: Tue 24 Dec 2013 05:54:19
# Commandline: needle
#    [-asequence] bac_su.fasta
#    [-bsequence] cp000557.fasta
#    -outfile aln.fasta
# Align_format: srspair
# Report_file: aln.fasta
########################################

#=======================================
#
# Aligned_sequences: 2
# 1: BSn5_t20896
# 2: CP000557
# Matrix: EDNAFULL
# Gap_penalty: 10.0
# Extend_penalty: 0.5
#
# Length: 67
# Identity:      45/67 (67.2%)
# Similarity:    45/67 (67.2%)
# Gaps:          10/67 (14.9%)
# Score: 157.0
# 
#
#=======================================

BSn5_t20896        1 agctggatagagcaacggccttctaagccgtcggtcgggagttcgaatct     50
                        ||||||||||..|||..|.||||.||||..|||||..||||||||| 
CP000557           1 ---tggatagagcgtcggtttcctaaaccgtgcgtcggaggttcgaatc-     46

BSn5_t20896       51 ctc-ctgggacgtacca     66
                     ||| |.|||.||     
CP000557          47 ctctcggggccg-----     58

© Наталья Ланина
e-mail: n.lanina@fbb.msu.ru