Поиск в геноме участков, кодирующих белки,похожие на заданный
Заданный белок - это белок PLY_BACSU. Его последовательность представлена ниже.
MKKVMLATALFLGLTPAGANAADLGHQTLGSNDGWGAYSTGTTGGSKASSSNVYTVSNRN QLVSALGKETNTTPKIIYIKGTIDMNVDDNLKPLGLNDYKDPEYDLDKYLKAYDPSTWGK KEPSGTQEEARARSQKNQKARVMVDIPANTTIVGSGTNAKVVGGNFQIKSDNVIIRNIEF QDAYDYFPQWDPTDGSSGNWNSQYDNITINGGTHIWIDHCTFNDGSRPDSTSPKYYGRKY QHHDGQTDASNGANYITMSYNYYHDHDKSSIFGSSDSKTSDDGKLKITLHHNRYKNIVQR APRVRFGQVHVYNNYYEGSTSSSSYPFSYAWGIGKSSKIYAQNNVIDVPGLSAAKTISVF SGGTALYDSGTLLNGTQINASAANGLSSSVGWTPSLHGSIDASANVKSNVINQAGAGKLN
Поиск выполнялся программой tblastn по геному бактерии Bacillus licheniformis. При помощи команд: makeblastndb -in bl_genome.fasta -dbtype nucl (создание локальной базы) и tblastn -query URHG2_BACSU.fasta -db bl_genome.fasta -out homologues.txt -evalue 0.001 (поиск гомологов белка), были пролученны результаты, представленные в таблице.
| Число находок с e-value < 0,001 | 1 | 
| E-value лучшей находки | 1е-117 | 
| Название последовательности с лучшей находкой | Bacillus licheniformis DSM 13, complete genome | 
| Координаты лучшей находки (от-до) | (1402835-1404085);(2937184-2937654);(3953684-3954406) | 
| Доля аоследовательности моего белка, вошедшая в выравнивание с лучшей находкой | 97 | 
Поиск гомологов некодирующих последовательностей программой BLASTN
Для того чтобы найти гомологов различных тРНК Bacillus subtilis в геноме Bacillus licheniformis, использовалась программа blastn с порогом e-value 0.01.
Для начала командой: blastn -task blastn -query trna_bacsu.fasta -db bl_genome.fasta -evalue 1е-02 -outfmt 6 -out trna.txt получаем файл trna.txt
Затем припомощи команды grep ">" trna_bacsu.fasta была создана колонка названий последовательностей тРНК
Далее был написан скрипт и получена таблица с количеством находок.
Поиск гомологов при изменённых параметрах программы BLASTN
Проделаем предыдущие действия еще 2 раза, но при это будем менять параметры.
В первый раз изменим параметры -reward, -penalty, -gapopen и -gapextend.
blastn -task blastn -query trna_bacsu.fasta -db bl_genome.fasta -evalue 1e-02 -reward 5 -penalty -4 -gapopen 10 -gapextend 6 -outfmt 6 > trna2.txt
Замтем к предыдущим изменения добавим измененный параметр -word_size.
blastn -task blastn -query trna_bacsu.fasta -db bl_genome.fasta -evalue 1e-02 -reward 5 -penalty -4 -gapopen 10 -gapextend 6 -word_size 4 -outfmt 6 > trna3.txt
В третий раз оставим все параметры стандартмыми кроме -word_size.
blastn -task blastn -query trna_bacsu.fasta -db bl_genome.fasta -evalue 1e-02 -word_size 4 -outfmt 6 > trna4.txt
Совокупность всех результатов представленна в таблице.
Анализ результатов
Как видно в таблице, приведенной в предыдущем задании, колличество гомологов некоторых тРНК при изменении параметром не изменяется. Но у большинства тРНК находится различное число гомологов. Возьмем одну из таких тРНК.
Была выбрана метиониновая tRNA B.subtilis и гомологичный участок, найденный в геноме Bacillus licheniformis, с координатами 74750-74824.
# Aligned_sequences: 2
# 1: AE017333
# 2: BSn5_t20976
# Matrix: EDNAFULL
# Gap_penalty: 10.0
# Extend_penalty: 0.5
#
# Length: 77
# Identity:      75/77 (97.4%)
# Similarity:    75/77 (97.4%)
# Gaps:           2/77 ( 2.6%)
# Score: 375.0
# 
#
#=======================================
AE017333           1 ggcggtgtagctcagctggctagagcgtacggttcatacccgtgaggtcg     50
                     ||||||||||||||||||||||||||||||||||||||||||||||||||
BSn5_t20976        1 ggcggtgtagctcagctggctagagcgtacggttcatacccgtgaggtcg     50
AE017333          51 ggggttcgatcccctccgccgctac--     75
                     |||||||||||||||||||||||||  
BSn5_t20976       51 ggggttcgatcccctccgccgctacca     77
Данное выравнивание хорошее. Гомологичный участок и правда соответствует tRNA.