Поиск в геноме участков, кодирующих белки, похожие на P08877
Задача: определить, закодированы ли похожие белки в геноме
Geobacillus thermodenitrificans
Для этого создали в директории block3 индексные файлы пакета BLAST+ для поиска по геному бактерии G.thermodenitrificans.
Использовали команды: makeblastdb -in gt_genome.fasta -dbtype nucl( создали нуклеотидную базу данных на основе полного геномаGeobacillus thermodenitrificans)
tblastn -query P08877.fasta -db gt_genome.fasta -out task13.out -evalue 0.001(программой tblastn провели поиск гомолога)
Поиск гомологов белка P08877 в геноме Geobacillus thermodenitrificans
Число находок с E-value< 0,001: 1
E-value лучшей находки: 7е -31
Название последовательности с лучшей находкой: Geobacillus thermodenitrificans NG80-2, complete
genome.
Координаты лучшей находки: 953471- 953728
Доля последовательности белка P08877 , вошедшая в выравнивание с лучшей находкой: 0,7
Поиск гомологов некодирующих последовательностей программой BLASTN
Определим сколько гомологов каждой из тРНК находит программа BLASTN в геноме родственной бактерии.
Для этого запустим программу blastn, указав в качестве последовательностей для поиска файл trna_bacsu.fasta, в качестве банка- геном бактерии Geobacillus thermodenitrificans.
используем команду: blastn -task blastn -query trna_bacsu.fasta -db gt_genome.fasta -out blastn.out -outfmt 7 -evalue 0.01
Создадим колонку из названий входных последовательностей командой:
grep ">" trna_bacsu.fasta >grep.fasta
Для создания скрипта из команд использовала Excel.
Поиск гомологов при измененных параметрах программы BLASTN
Повторила предыдущее задание еще два раза с измененными параметрами программы, каждый раз сохраняя новый файл.
При запускании программы с измененными параметрами( изменение весовой матрицы) подберем значения -gapopen и -gapextend.
Также используем команды:
blastn -task blastn -query trna_bacsu.fasta -db gt_genome.fasta -out 1.out -evalue 0.01 -outfmt 7 -reward 5 -penalty -4 -gapopen 25 -gapextend 10
blastn -task blastn -query trna_bacsu.fasta -db gt_genome.fasta -out 2.out -evalue 0.01 -outfmt 7 -reward 5 -penalty -4 -gapopen 25 -gapextend 10 -word_size 4
Получили файл с результатами.
Анализ результатов
При изменении веса число находок немного увеличивается,и при изменении длины слова также увеличивается. В файле с выдачей blastn была найдена треониновая т-РНК -BSn5_t20966 tRNA-Thr
в паре с участком CP000557 553263-553335, которая была в выдаче при изменении слова, но отсутствовала в остальных файлах.
Возможно это связано с тем, что при параметре с уменьшенной длиной слова, точность выравнивания снижается.
Выравнивание, полученное с помощью программы needle(выравнивание получилось очень хорошим, участок CP000557 соответствует Thr tRNA:
#=======================================
#
# Aligned_sequences: 2
# 1: BSn5_t20996
# 2: CP000557.1
# Matrix: EDNAFULL
# Gap_penalty: 10.0
# Extend_penalty: 0.5
#
# Length: 73
# Identity: 62/73 (84.9%)
# Similarity: 62/73 (84.9%)
# Gaps: 0/73 ( 0.0%)
# Score: 266.0
#
#
#=======================================
BSn5_t20996 1 gccggtgtagctcaattggtagagcgcctgacttgtaagcagtggattgg 50
|||||..||||||||||||||||||..|||||||||||.||||.|.|||.
CP000557.1 1 gccggcttagctcaattggtagagcaactgacttgtaatcagtaggttgc 50
BSn5_t20996 51 gggttcaagtcctcttgccggca 73
|||||||||||||...|||||||
CP000557.1 51 gggttcaagtcctgcagccggca 73
© Boskhomdzhieva Baina, 2012