Поиск в геноме участков, кодирующих белки, похожие на заданный

Требовалось определить, закодированы ли в геноме бактерии G.thermodenitrificans белки, похожие на белок UVRB_BACSU, аминокислотная последовательность которого представлена здесь. Использовался пакет BLAST+. Мы создали локальную базу данных на основе полного генома бактерии (gt_genome.fasta) и произвели поиск с помощью tblastn.

Поиск гомологов некодирующих последовательностей программой BLASTN

В задании требовалось определить, сколько гомологов каждой из тРНК генома Bacillus subtilis BSn5 находит программа BLASTN в геноме Geobacillus thermodenitrificans. Использовалась команда:

blastn -task blastn -query trna_bacsu.fasta -db gt_genome.fasta -evalue 0.01 -outfmt 7 > b1.txt

Для того, чтобы найти количество находок для каждой тРНК, использовалась команда grep. Скрипт. Результат выполнения задания - в файле trna.xls.

Поиск гомологов при изменённых параметрах программы BLASTN

Предыдущее задание мы повторили с измененными параметрами: измененной весовой матрицей (-reward 5, -penalty -4, -gapopen 10 и -gapextend 6) и длиной слова (по умолчанию и минимальной).

Использованные команды


blastn -task blastn -query trna_bacsu.fasta -db gt_genome.fasta -evalue 0.01 -reward 5 -penalty -4 -gapopen 10 -gapextend 6 -outfmt 7 > b2.txt
blastn -task blastn -query trna_bacsu.fasta -db gt_genome.fasta -evalue 0.01 -reward 5 -penalty -4 -gapopen 10 -gapextend 6 -word_size 4 -outfmt 7 > b3.txt
Результат - таблица с названиями тРНК и числом находок каждой выдачи blast в файле trna.xls. Как можно заметить, при изменении веса число находок увеличивается незначительно. Однако, при изменении длины слова на минимальную число находок увеличивается.

Анализ результатов

Была выбрана изолейциновая тРНК BSn5_t20966 tRNA-Ile c координатами 155340-155393, которая находится программой blastn только при минимальном параметре wordsize. Выравнивание последовательности с возможно гомологичной ей из генома Geobacillus thermodenitrificans представлено ниже:

# Program: needle
# Rundate: Sun 22 Dec 2013 21:36:49
# Commandline: needle
#    [-asequence] t4.fasta
#    [-bsequence] 4g.fasta
#    -outfile 4out.txt
# Align_format: srspair
# Report_file: 4out.txt
########################################

#=======================================
#
# Aligned_sequences: 2
# 1: BSn5_t20966
# 2: CP000557
# Matrix: EDNAFULL
# Gap_penalty: 10.0
# Extend_penalty: 0.5
#
# Length: 77
# Identity:      40/77 (51.9%)
# Similarity:    40/77 (51.9%)
# Gaps:          22/77 (28.6%)
# Score: 130.0
# 
#
#=======================================

BSn5_t20966        1 gggcctgtagctcagctggttagagcgcacgcctgataagcgtgaggtcg     50
                            |||||||| |.|.||||||.|...|.||.||||...||||||.
CP000557           1 -------tagctcag-taggtagagcacttccatggtaaggaagaggtca     42

BSn5_t20966       51 gtggttcgagtccactcaggcccacca     77
                     ..||||||||.||              
CP000557          43 ccggttcgagccc--------------     55


#---------------------------------------
#---------------------------------------

Как мы можем заметить, выравнивание не очень хорошее, со значительными неточностями по краям.

По данным записи EMBL взятый участок (как говорилось выше, в выдаче blastn его координаты 155340-155393, а в записи EMBL - 155333-155407) содержит ген, продуктом которого является аспарагиновая тРНК. Однако тРНК из Bacillus subtilis BSn5_t20966 является изолейциновой.


© Желудкевич Анна, 2013