На главную |
|
Мои проекты | Ссылки | Обо мне | Мои заметки |
Standalone BLAST
Поиск гомологов белка MNTR_BACSU в геноме Streptococcus agalactiae
Сначала создали индексные файлы пакета BLAST+ для поиска по заданному геному. На основе созданной базы данных и е-value выяснилось, что таких участков, которые были бы схожи с белком mntr_bacsu, в заданном геноме нет.
Поиск гомологов некодирующих последовательностей программой BLASTN
Нужно определить сколько гомологов каждой из тРНК,проаннотированных в полном геноме Bacillus subtilis BSn5, находит программа BLASTN в геноме родственной бактерии. Для
этого используем следующие команды:
time blastn -task blastn -query trna_bacsu.fasta -db sa_genome.fasta -evalue 0.01 -word_size 11 -outfmt 7 > result1.out
time blastn -task blastn -query trna_bacsu.fasta -db sa_genome.fasta -evalue 0.01 -word_size 11 -outfmt 7 -reward 5 -penalty -4 -gapopen 8 -gapextend 6 > result2.out
time blastn -task blastn -query trna_bacsu.fasta -db sa_genome.fasta -evalue 0.01 -word_size 4 -outfmt 7 -reward 5 -penalty -4 -gapopen 8 -gapextend 6 >result3.out
time blastn -task blastn -query trna_bacsu.fasta -db sa_genome.fasta -evalue 0.01 -word_size 4 -outfmt 7 > result4.out
Где последние три - это программы с измененными параметрами.Изменены весовая матрица и длина слова.
Файл, полученный первой командой, содержит названия всех хитов и их количество. С использованием скрипта получим таблицу с результатами.
Анализ результатов
Наибольшее увеличение числа находок происходит при умельшении длины слова. Небольшое увеличение влечет за собой изменение веса. При изменении настроек веса и длины слова поиск позволяет
найти более дальние гомологи, то есть становится более чувствительным. Так же при увеличении чувствительности увеличивается всемя работы, от доли секунды при стандартных параметрах, до 22 секунд
при самых чувствительных.
Нашла пару tRNA-Ile B.subtilis и гомологичный участок в геноме заданной бактерии. Данная пара нашлася только при самых мягких условиях выравнивания. Гомологичный участок был вырезан в отдельный файл.
Привожу в отчете выравнивание программой needle
Length: 76 Identity: 59/76 (77.6%) Similarity: 59/76 (77.6%) Gaps: 5/76 ( 6.6%) Score: 237.0 BSn5_t20974 1 ggggccttagctcagctgggagagcgcctgctttgcacgcaggaggtcag 50 |||...|||||||||||||||||||..||||.||.||.||||..|||||| AL766843 1 gggagtttagctcagctgggagagcatctgccttacaagcagagggtcag 50 BSn5_t20974 51 cggttcgatcccgctaggctccacca 76 |||||||||||||.|| .|||| AL766843 51 cggttcgatcccgtta-actcc---- 71
Как видно, выравнивание хорошее, с достаточно большой идентичностью. Гэпы есть, но их не много и они все в конце выравнивания. По данным EMBL в геноме бактерии этот участок тоде кодирует тРНК, правда, другую. Возможно, этим и объясняется хоть и высокая, но не слишком, идентичность, а так же наличие гэпов.
FT tRNA 21402..21474 FT /product="transfert RNA-Val"