В рабочей дирректории была создана локальная БД: геном бактерии Geobacillus thermodenitrificans. Также был создан файл с нуклеотидной последовательностью (полученной в одном из предыдущих заданий) запроса - белка QUEC_BACSU.
При помощи команды
blastn -task blastn -query query.fasta -db gt_genome.fasta -evalue 0.001 -out blast1.outбыли получены данные о похожих последовательностях у G. thermodenitrificans.
Число находок с E-value < 0,001 | 1 |
E-value лучшей находки | 4,00E-78 |
Название последовательности с лучшей находкой | CP000557 CP000557.1 Geobacillus thermodenitrificans NG80-2, complete genome |
Координаты лучшей находки (от-до) | 940408-941009 |
Доля последовательности вашего белка, вошедшая в выравнивание с лучшей находкой | 1.0 |
Таблица 1. Результаты запроса blastn.
Командой
blastn -task blastn -query trna_bacsu.fasta -out blast2.out -outfmt 7 -evalue 0.01 -db gt_genome.fastaбыли выявлены участки ДНК у G. thermodenitrificans, похожие на гены тРНК B. subtilis.
После этого при помощи команды
grep BSn[0-9] blast2.outбыл получен столбец с названиями тРНК. После этого был применен скрипт вида "grep -c BSn5_t***** blast2.out >> trna_hits.txt". Результаты приведены в таблице 1.
Та же самая работа была проделана с изменными параметрами:
1. blastn -task blastn -query trna_bacsu.fasta -db gt_genome.fasta -evalue 0.01 -out blast3.out -reward 5 -penalty -4 -gapopen 10 -gapextend 6 -outfmt 7 2. blastn -task blastn -query trna_bacsu.fasta -db gt_genome.fasta -evalue 0.01 -out blast4.out -reward 5 -penalty -4 -gapopen 10 -gapextend 6 -word_size 4 -outfmt 7
Результаты всех трех команд сведены в одну таблицу 1.
ПРи уменьшении минимальной длины слова (-word_size) явно заметна тенденция к увеличению числа находок. Это понятно, ведь при этом вероятность, что случайно где-нибудь встретиться похожая последовательность, возрастает.
Я выбрал BSn5_t20966 tRNA-Ile (CDS: 554411.554487). Была получена последовательность этой тРНК.
Программой needle было произведено выравнивание BSn5_t20966 tRNA-Ile и соответствующей тРНК:
# Aligned_sequences: 2 # 1: CP000557 # 2: CP000557 # Matrix: EDNAFULL # Gap_penalty: 10.0 # Extend_penalty: 0.5 # # Length: 77 # Identity: 77/77 (100.0%) # Similarity: 77/77 (100.0%) # Gaps: 0/77 ( 0.0%) # Score: 385.0 # # #======================================= CP000557 1 gggcctatagctcagctggtcagagcgcacgcctgataagcgtgaggtcg 50 |||||||||||||||||||||||||||||||||||||||||||||||||| CP000557 1 gggcctatagctcagctggtcagagcgcacgcctgataagcgtgaggtcg 50 CP000557 51 gtggttcaagtccacttaggcccacca 77 ||||||||||||||||||||||||||| CP000557 51 gtggttcaagtccacttaggcccacca 77