+

Standalone BLAST

Поиск гомологов белка MNTR_BACSU в геноме Streptococcus agalactiae

Сначала создали индексные файлы пакета BLAST+ для поиска по заданному геному. На основе созданной базы данных и е-value выяснилось, что таких участков, которые были бы схожи с белком mntr_bacsu, в заданном геноме нет.

Поиск гомологов некодирующих последовательностей программой BLASTN

Нужно определить сколько гомологов каждой из тРНК,проаннотированных в полном геноме Bacillus subtilis BSn5, находит программа BLASTN в геноме родственной бактерии. Для этого используем следующие команды:
time blastn -task blastn -query trna_bacsu.fasta -db sa_genome.fasta -evalue 0.01 -word_size 11 -outfmt 7 > result1.out

time blastn -task blastn -query trna_bacsu.fasta -db sa_genome.fasta -evalue 0.01 -word_size 11 -outfmt 7 -reward 5 -penalty -4 -gapopen 8 -gapextend 6 > result2.out

time blastn -task blastn -query trna_bacsu.fasta -db sa_genome.fasta -evalue 0.01 -word_size 4 -outfmt 7 -reward 5 -penalty -4 -gapopen 8 -gapextend 6 >result3.out

time blastn -task blastn -query trna_bacsu.fasta -db sa_genome.fasta -evalue 0.01 -word_size 4 -outfmt 7 > result4.out

Где последние три - это программы с измененными параметрами.Изменены весовая матрица и длина слова. Файл, полученный первой командой, содержит названия всех хитов и их количество. С использованием скрипта получим таблицу с результатами.

Анализ результатов

Наибольшее увеличение числа находок происходит при умельшении длины слова. Небольшое увеличение влечет за собой изменение веса. При изменении настроек веса и длины слова поиск позволяет найти более дальние гомологи, то есть становится более чувствительным. Так же при увеличении чувствительности увеличивается всемя работы, от доли секунды при стандартных параметрах, до 22 секунд при самых чувствительных.
Нашла пару tRNA-Ile B.subtilis и гомологичный участок в геноме заданной бактерии. Данная пара нашлася только при самых мягких условиях выравнивания. Гомологичный участок был вырезан в отдельный файл. Привожу в отчете выравнивание программой needle

 
 Length: 76
 Identity:      59/76 (77.6%)
 Similarity:    59/76 (77.6%)
 Gaps:           5/76 ( 6.6%)
 Score: 237.0


BSn5_t20974        1 ggggccttagctcagctgggagagcgcctgctttgcacgcaggaggtcag     50
                     |||...|||||||||||||||||||..||||.||.||.||||..||||||
AL766843           1 gggagtttagctcagctgggagagcatctgccttacaagcagagggtcag     50

BSn5_t20974       51 cggttcgatcccgctaggctccacca     76
                     |||||||||||||.|| .||||    
AL766843          51 cggttcgatcccgtta-actcc----     71


Как видно, выравнивание хорошее, с достаточно большой идентичностью. Гэпы есть, но их не много и они все в конце выравнивания. По данным EMBL в геноме бактерии этот участок тоде кодирует тРНК, правда, другую. Возможно, этим и объясняется хоть и высокая, но не слишком, идентичность, а так же наличие гэпов.
FT   tRNA            21402..21474
FT                   /product="transfert RNA-Val"

© Ходыкина Наталья,2013