Standalone BLAST
Поиск в геноме участков, кодирующих белки, похожие на PDXT_BACSU
Чтобы определить, закодированы ли белки, похожие на PDXT_BACSU в геноме Listeria monocytogenes, без использования аннотации генома, был осуществлен поиск программой blastn с порогом на E-value 0,001. Для создания базы данных и поиска использовались следующие команды:
makeblastndb -in lm_genome.fasta -dbtype nucl tblastn -query pdxt_bacsu.fasta -db lm_genome.fasta -evalue 1e-3 -out Task1_1.txt -outfmt "7"
Результаты поиска занесены в таблицу ниже:
Число находок с E-value < 0,001 | 2 |
E-value лучшей находки | 6e-57 |
Название последовательности с лучшей находкой | embl:AL591982 Listeria monocytogenes strain EGD, complete genome segment 11/12 |
Координаты лучшей находки (от-до) | 82218-82793 |
Доля последовательности вашего белка, вошедшая в выравнивание с лучшей находкой | 98% |
Поиск гомологов некодирующих последовательностей программой BLASTN
Чтобы определить, сколько гомологов каждой из тРНК Bacillus subtilis находит программа BLASTN в геноме Listeria monocytogenes. Была запущена команда:
blastn -task blastn -query trna_bacsu.fasta -db lm_genome.fasta -evalue 1e-2 -outfmt "6" -out trna.txt
Число находок для каждой последовательности было посчитано с помощью скрипта, содержащего следующие строки:
grep -c BSn5_t00000 trna.txt >> trna.xls
В котором t00000-номер тРНК. Результаты представлены в файле.
Поиск гомологов при изменённых параметрах программы BLASTN
Проделали то же самое, но с другими параметрами программы: -reward и -penalty, в отличие от стандартных значений, изменены на -reward 5 и -penalty -4, а также параметры -gapopen и -gapextend изменены на -gapopen 10 и -gapextend 6:
blastn -task blastn -query trna_bacsu.fasta -db lm_genome.fasta -evalue 1e-2 -outfmt "6" -out trna1.txt -reward 5 -penalty -4 -gapopen 10 -gapextend
Запустили программу с измененными параметрами, но теперь -word_size изменен на минимальное возможное значение:
blastn -task blastn -query trna_bacsu.fasta -db lm_genome.fasta -evalue 1e-2 -outfmt "6" -out trna2.txt -reward 5 -penalty -4 -gapopen 10 -gapextend 6 -word_size 4
Результаты представлены в том же файле.
Анализ результатов
Как видно из таблицы, с каждым последующим изменением параметров программы число находок для каждой последовательности тРНК увеличивается, что, вероятно, связано с уменьшением селективности и нахождением более далёких гомологов.
Было построено выравнивание по алгоритму needle для tRNA-Gln BSn5_t20894 и его предположительного гомолога найденного только при поиске с параметром -word_size 4 (embl|AL591983|AL591983 с координатами 41694-41627 обратная цепь):
#======================================= # # Aligned_sequences: 2 # 1: BSn5_t20894 # 2: AL591983 # Matrix: EDNAFULL # Gap_penalty: 10.0 # Extend_penalty: 0.5 # # Length: 71 # Identity: 47/71 (66.2%) # Similarity: 47/71 (66.2%) # Gaps: 3/71 ( 4.2%) # Score: 151.0 # # #======================================= BSn5_t20894 1 tgggctatagccaagcggtaaggcaatggactttgactccgtgatcgttg 50 |.||.|||||||||.|||||||||..||.||...|..||.|.|||...| AL591983 1 -gcgccatagccaagtggtaaggcagaggtctgcaaaacctttatcaccg 49 BSn5_t20894 51 gttcgaatccagctagcccag 71 ||||.|||||.|.|.||.| AL591983 50 gttcaaatccggttggcgc-- 68
Выравнивание не очень хорошее, поскольку этот участок соответствует tRNA-Cys (согласно аннотации EMBL:AL591983), а не tRNA-Gln.