СЕМЕСТРЫ | ПРОЕКТЫ | ОБО МНЕ | ССЫЛКИ |
Была создана локальная база с помощью команды makeblastdb (makeblastdb -in sa_genome.fasta -dbtype nucl)
Поиск с порогом на E-value 0,001 проводился программой tblastn (tblastn -query P42979.fasta -db sa_genome.fasta -out tblastn.out)
Таблица. Поиск гомологов белка YPJD_BACSU в геноме Streptococcus agalactiae
Число находок с E-value < 0,001 | 1 |
E-value лучшей находки | 0,0004 |
Название последовательности с лучшей находкой | AL766855 Streptococcus agalactiae NEM316 complete genome, segment 13 |
Координаты лучшей находки (от-до) | 41576-41755 |
Доля последовательности вашего белка, вошедшая в выравнивание с лучшей находкой | 53/111=0,48 |
С помощью программы blastn (скрипт: blastn -task blastn -query trna_bacsu.fasta -db sa_genome.fasta -out trna.out -outfmt 6 -evalue 0.01) нашли гомологов тРНК Bacillus subtilis в Streptococcus agalactiae. Получили файл trna.out. Далее скриптом grep нашли число находок для последовательности trna_bacsu.fasta. Скрипт
Для следующих выравниваний были изменены некоторые параметры: введен штраф -4 за несовпадение и бонус 5 за совпадение, а также потребовалось ввести штрафы за гэпы (первый - 10, повторные -6). Во втором и третьем случае также изменили длины искомых слов на минимально возможные - 4.
Скрипт 1: blastn -task blastn -query trna_bacsu.fasta -db sa_genome.fasta -out trna2.out -outfmt 6 -evalue 0.01 -reward 5 -penalty -4 -gapopen 10 -gapextend 6
Скрипт 2: blastn -task blastn -query trna_bacsu.fasta -db sa_genome.fasta -out trna3.out -outfmt 6 -evalue 0.01 -reward 5 -penalty -4 -gapopen 10 -gapextend 6 -word_size 4
Скрипт 3: blastn -task blastn -query trna_bacsu.fasta -db sa_genome.fasta -out trna4.out -outfmt 6 -evalue 0.01 -word_size 4
В каждом случае тем же скриптом grep подсчитали количество гомологичных тРНК. Таблица с результатами
Изменения в параметрах повышали количество найденных гомологов: 623 было найдено при стандратном поиске, 1) 680,2)1255, 3)802. Изменение длин слов на минимальные особенно значительно понижало чувствительность поиска, то есть была найдено больше менее достоверных гомологов.
Далее приведено выравнивание со стандартными параметрами. Была выбрана именно эта последовательность из второго случая, так как при введении штрафов и бонусов находится только 1 гомолог BSn5_t20956(4 при стандартном поиске или с измененной длиной слов)
# Length: 80 # Identity: 49/80 (61.2%) # Similarity: 49/80 (61.2%) # Gaps: 22/80 (27.5%) # Score: 185.0 BSn5_t20956 1 gcgctcgtagctcagttggatagagcggtggtttccgg----taccacgt 46 |||||||||.|||.||||||| ||||| ||||..|. AL766843 1 ------gtagctcagctggctagagcg------tccggttcatacccggg 38 BSn5_t20956 47 ctgtcgggggttcgaatccctccgagcgcg 76 ..|||||||||||||..||||||| AL766843 39 aggtcgggggttcgatcccctccg------ 62