Поиск в геноме участков, кодирующих белки, похожие на заданный
Задача: определить, есть ли белок похожий на yBBD_BACSU в геноме Listeria monocytogenes.| Число находок с E-value < 0,001 | 2 |
| E-value лучшей находки | 4e-19 |
| Название последовательности с лучшей находкой | Listeria monocytogenes strain EGD, complete genome, segment 12/12 |
| Координаты лучшей находки (от-до) | 148376-147162 |
| Доля последовательности вашего белка, вошедшая в выравнивание с лучшей находкой | 436/642 |
Поиск гомологов некодирующих последовательностей программой BLASTN
grep -c tNNNNN blasttrna2.fasta - найдет количество находок именно для данной последовательности, где NNNNN - это номер тРНК.
C помощью команды
blastn -task blastn -query trna.fasta -db lm_genome.fasta -evalue 0.01 -outfmt 6 -out blasttrna2.fasta
были найдены хиты в геноме Listeria monocytogenes. Cкрипт помог сосчитать количество этих хитов. Файл Excel с результатами работы скрипта можно скачать здесь.
Поиск гомологов при изменённых параметрах программы BLASTN
Повторили то же самое, но с измененными параметрами программы:blastn -task blastn -query trna.fasta -db lm_genome.fasta -evalue 0.01 -outfmt 6 -out blasttrna2.fasta -reward 5 -penalty -4 -gapopen 8 -gapextend 6
blastn -task blastn -query trna.fasta -db lm_genome.fasta -evalue 0.01 -outfmt 6 -out blasttrna3.fasta -reward 5 -penalty -4 -gapopen 8 -gapextend 6 -word_size 4
Анализ результатов
Уменьшение длины слова приводит к тому, что находится большее количество хитов. Поэтому для выравнивания я взяла хит, найденный при длине слова 4.
Привожу выравнивание needle тРНК из B.subtilis и найденной тРНК с помощью третьей команды.
#=======================================
#
# Aligned_sequences: 2
# 1: BSn5_t20894
# 2: AL591982
# Matrix: EDNAFULL
# Gap_penalty: 8.0
# Extend_penalty: 0.5
#
# Length: 72
# Identity: 66/72 (91.7%)
# Similarity: 66/72 (91.7%)
# Gaps: 1/72 ( 1.4%)
# Score: 302.0
#
#
#=======================================
BSn5_t20894 1 tgggctatagccaagcggtaaggcaatggactttgactccgtgat-cgtt 49
||||||||||||||||||||||||||.|||.|||||.|||||.|| ||.|
AL591982 1 tgggctatagccaagcggtaaggcaacggattttgattccgtcatgcgct 50
BSn5_t20894 50 ggttcgaatccagctagcccag 71
||||||||||||||||||||||
AL591982 51 ggttcgaatccagctagcccag 72
Выровнялось хорошо, почти нет сомнений, что эта нужная нам тРНК. Проверим этот участок в геноме исследуемой бактерии.
В геноме бактерии этот участок тоже аннотирован Gln-тРНК, но дальше на 3 нуклеотида.
FT tRNA 115782..115856 FT /product="transfert RNA-Gln" FT /note="tRNAscan-SE vs 1.3 result - Cove score = 68.97"
Вконтакте
allakarpova@kodomo.fbb.msu.ru
vseokeyboss@gmail.com