Поиск в геноме участков, кодирующих белки, похожие на заданный
Требовалось определить, закодированы ли в геноме бактерии
G.thermodenitrificans белки, похожие на белок
UVRB_BACSU, аминокислотная последовательность которого представлена
здесь. Использовался пакет BLAST+. Мы создали локальную базу данных на основе полного генома бактерии (gt_genome.fasta) и произвели поиск с помощью tblastn.
- Число находок с E-value < 0,001: 4
- E-value лучшей находки: 7e-17
- Название последовательности с лучшей находкой: CP000557
- Координаты лучшей находки (от-до): 57144-58037
- Доля последовательности белка, вошедшая в выравнивание с лучшей находкой: 0,97
Поиск гомологов некодирующих последовательностей программой BLASTN
В задании требовалось определить, сколько гомологов каждой из тРНК генома
Bacillus subtilis BSn5 находит программа BLASTN в геноме
Geobacillus thermodenitrificans. Использовалась команда:
blastn -task blastn -query trna_bacsu.fasta -db gt_genome.fasta -evalue 0.01 -outfmt 7 > b1.txt
Для того, чтобы найти количество находок для каждой тРНК, использовалась команда grep. Скрипт. Результат выполнения задания - в файле trna.xls.
Поиск гомологов при изменённых параметрах программы BLASTN
Предыдущее задание мы повторили с измененными параметрами: измененной весовой матрицей (-reward 5, -penalty -4, -gapopen 10 и -gapextend 6) и длиной слова (по умолчанию и минимальной).
Использованные команды
blastn -task blastn -query trna_bacsu.fasta -db gt_genome.fasta -evalue 0.01 -reward 5 -penalty -4 -gapopen 10 -gapextend 6 -outfmt 7 > b2.txt
blastn -task blastn -query trna_bacsu.fasta -db gt_genome.fasta -evalue 0.01 -reward 5 -penalty -4 -gapopen 10 -gapextend 6 -word_size 4 -outfmt 7 > b3.txt
Результат - таблица с названиями тРНК и числом находок каждой выдачи blast в файле
trna.xls.
Как можно заметить, при изменении веса число находок увеличивается незначительно. Однако, при изменении длины слова на минимальную число находок увеличивается.
Анализ результатов
Была выбрана изолейциновая тРНК
BSn5_t20966 tRNA-Ile c координатами 155340-155393, которая находится программой blastn только при минимальном параметре wordsize. Выравнивание последовательности с возможно гомологичной ей из генома
Geobacillus thermodenitrificans представлено ниже:
# Program: needle
# Rundate: Sun 22 Dec 2013 21:36:49
# Commandline: needle
# [-asequence] t4.fasta
# [-bsequence] 4g.fasta
# -outfile 4out.txt
# Align_format: srspair
# Report_file: 4out.txt
########################################
#=======================================
#
# Aligned_sequences: 2
# 1: BSn5_t20966
# 2: CP000557
# Matrix: EDNAFULL
# Gap_penalty: 10.0
# Extend_penalty: 0.5
#
# Length: 77
# Identity: 40/77 (51.9%)
# Similarity: 40/77 (51.9%)
# Gaps: 22/77 (28.6%)
# Score: 130.0
#
#
#=======================================
BSn5_t20966 1 gggcctgtagctcagctggttagagcgcacgcctgataagcgtgaggtcg 50
|||||||| |.|.||||||.|...|.||.||||...||||||.
CP000557 1 -------tagctcag-taggtagagcacttccatggtaaggaagaggtca 42
BSn5_t20966 51 gtggttcgagtccactcaggcccacca 77
..||||||||.||
CP000557 43 ccggttcgagccc-------------- 55
#---------------------------------------
#---------------------------------------
Как мы можем заметить, выравнивание не очень хорошее, со значительными неточностями по краям.
По данным записи EMBL взятый участок (как говорилось выше, в выдаче blastn его координаты 155340-155393, а в записи EMBL - 155333-155407) содержит ген, продуктом которого является аспарагиновая тРНК. Однако тРНК из Bacillus subtilis BSn5_t20966 является изолейциновой.