Поиск в геноме участков, кодирующих белки,похожие на заданный

Заданный белок - это белок PLY_BACSU. Его последовательность представлена ниже.

MKKVMLATALFLGLTPAGANAADLGHQTLGSNDGWGAYSTGTTGGSKASSSNVYTVSNRN
QLVSALGKETNTTPKIIYIKGTIDMNVDDNLKPLGLNDYKDPEYDLDKYLKAYDPSTWGK
KEPSGTQEEARARSQKNQKARVMVDIPANTTIVGSGTNAKVVGGNFQIKSDNVIIRNIEF
QDAYDYFPQWDPTDGSSGNWNSQYDNITINGGTHIWIDHCTFNDGSRPDSTSPKYYGRKY
QHHDGQTDASNGANYITMSYNYYHDHDKSSIFGSSDSKTSDDGKLKITLHHNRYKNIVQR
APRVRFGQVHVYNNYYEGSTSSSSYPFSYAWGIGKSSKIYAQNNVIDVPGLSAAKTISVF
SGGTALYDSGTLLNGTQINASAANGLSSSVGWTPSLHGSIDASANVKSNVINQAGAGKLN

Поиск выполнялся программой tblastn по геному бактерии Bacillus licheniformis. При помощи команд: makeblastndb -in bl_genome.fasta -dbtype nucl (создание локальной базы) и tblastn -query URHG2_BACSU.fasta -db bl_genome.fasta -out homologues.txt -evalue 0.001 (поиск гомологов белка), были пролученны результаты, представленные в таблице.

Число находок с e-value < 0,0011
E-value лучшей находки1е-117
Название последовательности с лучшей находкойBacillus licheniformis DSM 13, complete genome
Координаты лучшей находки (от-до)(1402835-1404085);(2937184-2937654);(3953684-3954406)
Доля аоследовательности моего белка, вошедшая в выравнивание с лучшей находкой97

Поиск гомологов некодирующих последовательностей программой BLASTN

Для того чтобы найти гомологов различных тРНК Bacillus subtilis в геноме Bacillus licheniformis, использовалась программа blastn с порогом e-value 0.01.

Для начала командой: blastn -task blastn -query trna_bacsu.fasta -db bl_genome.fasta -evalue 1е-02 -outfmt 6 -out trna.txt получаем файл trna.txt

Затем припомощи команды grep ">" trna_bacsu.fasta была создана колонка названий последовательностей тРНК

Далее был написан скрипт и получена таблица с количеством находок.

Поиск гомологов при изменённых параметрах программы BLASTN

Проделаем предыдущие действия еще 2 раза, но при это будем менять параметры.

В первый раз изменим параметры -reward, -penalty, -gapopen и -gapextend.

blastn -task blastn -query trna_bacsu.fasta -db bl_genome.fasta -evalue 1e-02 -reward 5 -penalty -4 -gapopen 10 -gapextend 6 -outfmt 6 > trna2.txt

Замтем к предыдущим изменения добавим измененный параметр -word_size.

blastn -task blastn -query trna_bacsu.fasta -db bl_genome.fasta -evalue 1e-02 -reward 5 -penalty -4 -gapopen 10 -gapextend 6 -word_size 4 -outfmt 6 > trna3.txt

В третий раз оставим все параметры стандартмыми кроме -word_size.

blastn -task blastn -query trna_bacsu.fasta -db bl_genome.fasta -evalue 1e-02 -word_size 4 -outfmt 6 > trna4.txt

Совокупность всех результатов представленна в таблице.

Анализ результатов

Как видно в таблице, приведенной в предыдущем задании, колличество гомологов некоторых тРНК при изменении параметром не изменяется. Но у большинства тРНК находится различное число гомологов. Возьмем одну из таких тРНК.

Была выбрана метиониновая tRNA B.subtilis и гомологичный участок, найденный в геноме Bacillus licheniformis, с координатами 74750-74824.

# Aligned_sequences: 2
# 1: AE017333
# 2: BSn5_t20976
# Matrix: EDNAFULL
# Gap_penalty: 10.0
# Extend_penalty: 0.5
#
# Length: 77
# Identity:      75/77 (97.4%)
# Similarity:    75/77 (97.4%)
# Gaps:           2/77 ( 2.6%)
# Score: 375.0
# 
#
#=======================================

AE017333           1 ggcggtgtagctcagctggctagagcgtacggttcatacccgtgaggtcg     50
                     ||||||||||||||||||||||||||||||||||||||||||||||||||
BSn5_t20976        1 ggcggtgtagctcagctggctagagcgtacggttcatacccgtgaggtcg     50

AE017333          51 ggggttcgatcccctccgccgctac--     75
                     |||||||||||||||||||||||||  
BSn5_t20976       51 ggggttcgatcccctccgccgctacca     77

Данное выравнивание хорошее. Гомологичный участок и правда соответствует tRNA.