Поиск в геноме участков, кодирующих белки, похожие на заданный
Был проведен поиск гомолога имидазолонпропионазы из Bacillus subtilis (P42084) в геноме бактерии Geobacillus thermodenitrificans.
Для этого сначала была создана нуклеотидная база данных на основе полного генома Geobacillus thermodenitrificans при помощи команды:
makeblastdb -in gt_genome.fasta -dbtype nucl.
По полученной базе данных программой tblastn был проведен поиск гомолога имидазолонпропионазы командой:
tblastn -query P42084.fasta -db gt_genome.fasta -out tblastn.out -evalue 0.001
В полученном файле оказалось выравнивание и данные о найденном гомологе (см.Таблица1)
Таблица 1
Число находок с E-value < 0,001
1
E-value лучшей находки
7e-120
Название последовательности с лучшей находкой
Geobacillus thermodenitrificans NG80-2, complete
genome
Координаты лучшей находки (от-до)
1292375-129361
Доля последовательности белка, вошедшая в выравнивание с лучшей находкой
100%
Поиск гомологов некодирующих последовательностей программой BLASTN
Определим, сколько гомологов каждой тРНК (из файла trna bacsu.fasta) содержится в геноме бактерии Geobacillus thermodenitrificans.
Для этого запустим BALSTN со следующими парамтрами:
blastn -task blastn -query trna_bacsu.fasta -db gt_genome.fasta -out trna.out outfmt 6 -evalue 0.01
Для того,чтобы узнать, сколько находок для конкретной тРНК выполним команду:
grep -c 'BSn5_t20894' trna.out. полученный файл
grep ">" trna_bacsu.fasta > trna.xlsx - создадим колонку из названий входных последовательностей и импортиуем ее в Excel.
Теперь сделаем то же самое для всех последовательностей. Последством скрипта получим файл и импортируем его в Excel.
Поиск гомологов при изменённых параметрах программы BLASTN
Выполним то же самое, что и в предыдущем задании, но с измененными параметрами:
blastn -task blastn -query trna_bacsu.fasta -db gt_genome.fasta -out trna2.out -outfmt 6 -evalue 0.01 -reward 5 -penalty -4 -gapopen 25 -gapextend 10
blastn -task blastn -query trna_bacsu.fasta -db gt_genome.fasta -out trna3.out -outfmt 6 -evalue 0.01 -reward 5 -penalty -4 -gapopen 25 -gapextend 10 -word_size 4
blastn -task blastn -query trna_bacsu.fasta -db gt_genome.fasta -out trna4.out -outfmt 6 -evalue 0.01 -word_size 4
Анализ результатов
Была выбрана глутаминовая тРНК BSn5_t20894 tRNA-Gln. Ее последовательность получена командой seqret -sask и выровнена с
последовательностью, кодирующей ту же тРНК в геноме B. subtilis, с помощью команды needle. Полученное выравнивание и информация о нем привдены ниже.
CP000557 1 ------atagccaagtggtaaggcagaggtctgcaaaacctttacccc-- 42 |||||||||.|||||||||..|| ||.||.||.|| BSn5_t20894 1 tgggctatagccaagcggtaaggcaatgg--------actttgactccgt 42 CP000557 43 ------cggttcgaatccgggt------- 58 .|||||||||||.|.| BSn5_t20894 43 gatcgttggttcgaatccagctagcccag 71