Поиск в геноме участков, кодирующих белки, похожие на заданный
Задача: определить, есть ли белок похожий на yBBD_BACSU в геноме Listeria monocytogenes.Число находок с E-value < 0,001 | 2 |
E-value лучшей находки | 4e-19 |
Название последовательности с лучшей находкой | Listeria monocytogenes strain EGD, complete genome, segment 12/12 |
Координаты лучшей находки (от-до) | 148376-147162 |
Доля последовательности вашего белка, вошедшая в выравнивание с лучшей находкой | 436/642 |
Поиск гомологов некодирующих последовательностей программой BLASTN
grep -c tNNNNN blasttrna2.fasta - найдет количество находок именно для данной последовательности, где NNNNN - это номер тРНК.
C помощью команды
blastn -task blastn -query trna.fasta -db lm_genome.fasta -evalue 0.01 -outfmt 6 -out blasttrna2.fasta
были найдены хиты в геноме Listeria monocytogenes. Cкрипт помог сосчитать количество этих хитов. Файл Excel с результатами работы скрипта можно скачать здесь.
Поиск гомологов при изменённых параметрах программы BLASTN
Повторили то же самое, но с измененными параметрами программы:blastn -task blastn -query trna.fasta -db lm_genome.fasta -evalue 0.01 -outfmt 6 -out blasttrna2.fasta -reward 5 -penalty -4 -gapopen 8 -gapextend 6
blastn -task blastn -query trna.fasta -db lm_genome.fasta -evalue 0.01 -outfmt 6 -out blasttrna3.fasta -reward 5 -penalty -4 -gapopen 8 -gapextend 6 -word_size 4
Анализ результатов
Уменьшение длины слова приводит к тому, что находится большее количество хитов. Поэтому для выравнивания я взяла хит, найденный при длине слова 4.
Привожу выравнивание needle тРНК из B.subtilis и найденной тРНК с помощью третьей команды.
#======================================= # # Aligned_sequences: 2 # 1: BSn5_t20894 # 2: AL591982 # Matrix: EDNAFULL # Gap_penalty: 8.0 # Extend_penalty: 0.5 # # Length: 72 # Identity: 66/72 (91.7%) # Similarity: 66/72 (91.7%) # Gaps: 1/72 ( 1.4%) # Score: 302.0 # # #======================================= BSn5_t20894 1 tgggctatagccaagcggtaaggcaatggactttgactccgtgat-cgtt 49 ||||||||||||||||||||||||||.|||.|||||.|||||.|| ||.| AL591982 1 tgggctatagccaagcggtaaggcaacggattttgattccgtcatgcgct 50 BSn5_t20894 50 ggttcgaatccagctagcccag 71 |||||||||||||||||||||| AL591982 51 ggttcgaatccagctagcccag 72
Выровнялось хорошо, почти нет сомнений, что эта нужная нам тРНК. Проверим этот участок в геноме исследуемой бактерии.
В геноме бактерии этот участок тоже аннотирован Gln-тРНК, но дальше на 3 нуклеотида.
FT tRNA 115782..115856 FT /product="transfert RNA-Gln" FT /note="tRNAscan-SE vs 1.3 result - Cove score = 68.97"