В рабочей дирректории была создана локальная БД: геном бактерии Geobacillus thermodenitrificans. Также был создан файл с нуклеотидной последовательностью (полученной в одном из предыдущих заданий) запроса - белка QUEC_BACSU.
При помощи команды
blastn -task blastn -query query.fasta -db gt_genome.fasta -evalue 0.001 -out blast1.outбыли получены данные о похожих последовательностях у G. thermodenitrificans.
| Число находок с E-value < 0,001 | 1 |
| E-value лучшей находки | 4,00E-78 |
| Название последовательности с лучшей находкой | CP000557 CP000557.1 Geobacillus thermodenitrificans NG80-2, complete genome |
| Координаты лучшей находки (от-до) | 940408-941009 |
| Доля последовательности вашего белка, вошедшая в выравнивание с лучшей находкой | 1.0 |
Таблица 1. Результаты запроса blastn.
Командой
blastn -task blastn -query trna_bacsu.fasta -out blast2.out -outfmt 7 -evalue 0.01 -db gt_genome.fastaбыли выявлены участки ДНК у G. thermodenitrificans, похожие на гены тРНК B. subtilis.
После этого при помощи команды
grep BSn[0-9] blast2.outбыл получен столбец с названиями тРНК. После этого был применен скрипт вида "grep -c BSn5_t***** blast2.out >> trna_hits.txt". Результаты приведены в таблице 1.
Та же самая работа была проделана с изменными параметрами:
1. blastn -task blastn -query trna_bacsu.fasta -db gt_genome.fasta -evalue 0.01 -out blast3.out -reward 5 -penalty -4 -gapopen 10 -gapextend 6 -outfmt 7 2. blastn -task blastn -query trna_bacsu.fasta -db gt_genome.fasta -evalue 0.01 -out blast4.out -reward 5 -penalty -4 -gapopen 10 -gapextend 6 -word_size 4 -outfmt 7
Результаты всех трех команд сведены в одну таблицу 1.
ПРи уменьшении минимальной длины слова (-word_size) явно заметна тенденция к увеличению числа находок. Это понятно, ведь при этом вероятность, что случайно где-нибудь встретиться похожая последовательность, возрастает.
Я выбрал BSn5_t20966 tRNA-Ile (CDS: 554411.554487). Была получена последовательность этой тРНК.
Программой needle было произведено выравнивание BSn5_t20966 tRNA-Ile и соответствующей тРНК:
# Aligned_sequences: 2
# 1: CP000557
# 2: CP000557
# Matrix: EDNAFULL
# Gap_penalty: 10.0
# Extend_penalty: 0.5
#
# Length: 77
# Identity: 77/77 (100.0%)
# Similarity: 77/77 (100.0%)
# Gaps: 0/77 ( 0.0%)
# Score: 385.0
#
#
#=======================================
CP000557 1 gggcctatagctcagctggtcagagcgcacgcctgataagcgtgaggtcg 50
||||||||||||||||||||||||||||||||||||||||||||||||||
CP000557 1 gggcctatagctcagctggtcagagcgcacgcctgataagcgtgaggtcg 50
CP000557 51 gtggttcaagtccacttaggcccacca 77
|||||||||||||||||||||||||||
CP000557 51 gtggttcaagtccacttaggcccacca 77