Standalone BLAST

Поиск в геноме участков, кодирующих белки, похожие на заданный

В рабочей дирректории была создана локальная БД: геном бактерии Geobacillus thermodenitrificans. Также был создан файл с нуклеотидной последовательностью (полученной в одном из предыдущих заданий) запроса - белка QUEC_BACSU.

При помощи команды

 blastn -task blastn -query query.fasta -db gt_genome.fasta -evalue 0.001 -out blast1.out

были получены данные о похожих последовательностях у G. thermodenitrificans.

Число находок с E-value < 0,001	1
E-value лучшей находки	4,00E-78
Название последовательности с лучшей находкой	CP000557 CP000557.1 Geobacillus thermodenitrificans NG80-2, complete genome
Координаты лучшей находки (от-до)	940408-941009
Доля последовательности вашего белка, вошедшая в выравнивание с лучшей находкой	1.0

Таблица 1. Результаты запроса blastn.

Поиск гомологов некодирующих последовательностей программой BLASTN

Командой

 blastn -task blastn -query trna_bacsu.fasta -out blast2.out -outfmt 7 -evalue 0.01 -db gt_genome.fasta

были выявлены участки ДНК у G. thermodenitrificans, похожие на гены тРНК B. subtilis.

После этого при помощи команды

 grep BSn[0-9] blast2.out

был получен столбец с названиями тРНК. После этого был применен скрипт вида "grep -c BSn5_t***** blast2.out >> trna_hits.txt". Результаты приведены в таблице 1.

Поиск гомологов при изменённых параметрах программы BLASTN

Та же самая работа была проделана с изменными параметрами:

 1. blastn -task blastn -query trna_bacsu.fasta -db gt_genome.fasta -evalue 0.01 -out blast3.out 
 -reward 5 -penalty -4 -gapopen 10 -gapextend 6 -outfmt 7
 2.  blastn -task blastn -query trna_bacsu.fasta -db gt_genome.fasta -evalue 0.01 -out blast4.out
 -reward 5 -penalty -4 -gapopen 10 -gapextend 6 -word_size 4 -outfmt 7

Результаты всех трех команд сведены в одну таблицу 1.

Анализ результатов

ПРи уменьшении минимальной длины слова (-word_size) явно заметна тенденция к увеличению числа находок. Это понятно, ведь при этом вероятность, что случайно где-нибудь встретиться похожая последовательность, возрастает.

Я выбрал BSn5_t20966 tRNA-Ile (CDS: 554411.554487). Была получена последовательность этой тРНК.

Программой needle было произведено выравнивание BSn5_t20966 tRNA-Ile и соответствующей тРНК:

 # Aligned_sequences: 2
# 1: CP000557
# 2: CP000557
# Matrix: EDNAFULL
# Gap_penalty: 10.0
# Extend_penalty: 0.5
#
# Length: 77
# Identity:      77/77 (100.0%)
# Similarity:    77/77 (100.0%)
# Gaps:           0/77 ( 0.0%)
# Score: 385.0
# 
#
#=======================================

CP000557           1 gggcctatagctcagctggtcagagcgcacgcctgataagcgtgaggtcg     50
                     ||||||||||||||||||||||||||||||||||||||||||||||||||
CP000557           1 gggcctatagctcagctggtcagagcgcacgcctgataagcgtgaggtcg     50

CP000557          51 gtggttcaagtccacttaggcccacca     77
                     |||||||||||||||||||||||||||
CP000557          51 gtggttcaagtccacttaggcccacca     77