Поиск в геноме участков, кодирующих белки,похожие на заданный
Заданный белок - это белок PLY_BACSU. Его последовательность представлена ниже.
MKKVMLATALFLGLTPAGANAADLGHQTLGSNDGWGAYSTGTTGGSKASSSNVYTVSNRN QLVSALGKETNTTPKIIYIKGTIDMNVDDNLKPLGLNDYKDPEYDLDKYLKAYDPSTWGK KEPSGTQEEARARSQKNQKARVMVDIPANTTIVGSGTNAKVVGGNFQIKSDNVIIRNIEF QDAYDYFPQWDPTDGSSGNWNSQYDNITINGGTHIWIDHCTFNDGSRPDSTSPKYYGRKY QHHDGQTDASNGANYITMSYNYYHDHDKSSIFGSSDSKTSDDGKLKITLHHNRYKNIVQR APRVRFGQVHVYNNYYEGSTSSSSYPFSYAWGIGKSSKIYAQNNVIDVPGLSAAKTISVF SGGTALYDSGTLLNGTQINASAANGLSSSVGWTPSLHGSIDASANVKSNVINQAGAGKLN
Поиск выполнялся программой tblastn по геному бактерии Bacillus licheniformis. При помощи команд: makeblastndb -in bl_genome.fasta -dbtype nucl (создание локальной базы) и tblastn -query URHG2_BACSU.fasta -db bl_genome.fasta -out homologues.txt -evalue 0.001 (поиск гомологов белка), были пролученны результаты, представленные в таблице.
Число находок с e-value < 0,001 | 1 |
E-value лучшей находки | 1е-117 |
Название последовательности с лучшей находкой | Bacillus licheniformis DSM 13, complete genome |
Координаты лучшей находки (от-до) | (1402835-1404085);(2937184-2937654);(3953684-3954406) |
Доля аоследовательности моего белка, вошедшая в выравнивание с лучшей находкой | 97 |
Поиск гомологов некодирующих последовательностей программой BLASTN
Для того чтобы найти гомологов различных тРНК Bacillus subtilis в геноме Bacillus licheniformis, использовалась программа blastn с порогом e-value 0.01.
Для начала командой: blastn -task blastn -query trna_bacsu.fasta -db bl_genome.fasta -evalue 1е-02 -outfmt 6 -out trna.txt получаем файл trna.txt
Затем припомощи команды grep ">" trna_bacsu.fasta была создана колонка названий последовательностей тРНК
Далее был написан скрипт и получена таблица с количеством находок.
Поиск гомологов при изменённых параметрах программы BLASTN
Проделаем предыдущие действия еще 2 раза, но при это будем менять параметры.
В первый раз изменим параметры -reward, -penalty, -gapopen и -gapextend.
blastn -task blastn -query trna_bacsu.fasta -db bl_genome.fasta -evalue 1e-02 -reward 5 -penalty -4 -gapopen 10 -gapextend 6 -outfmt 6 > trna2.txt
Замтем к предыдущим изменения добавим измененный параметр -word_size.
blastn -task blastn -query trna_bacsu.fasta -db bl_genome.fasta -evalue 1e-02 -reward 5 -penalty -4 -gapopen 10 -gapextend 6 -word_size 4 -outfmt 6 > trna3.txt
В третий раз оставим все параметры стандартмыми кроме -word_size.
blastn -task blastn -query trna_bacsu.fasta -db bl_genome.fasta -evalue 1e-02 -word_size 4 -outfmt 6 > trna4.txt
Совокупность всех результатов представленна в таблице.
Анализ результатов
Как видно в таблице, приведенной в предыдущем задании, колличество гомологов некоторых тРНК при изменении параметром не изменяется. Но у большинства тРНК находится различное число гомологов. Возьмем одну из таких тРНК.
Была выбрана метиониновая tRNA B.subtilis и гомологичный участок, найденный в геноме Bacillus licheniformis, с координатами 74750-74824.
# Aligned_sequences: 2 # 1: AE017333 # 2: BSn5_t20976 # Matrix: EDNAFULL # Gap_penalty: 10.0 # Extend_penalty: 0.5 # # Length: 77 # Identity: 75/77 (97.4%) # Similarity: 75/77 (97.4%) # Gaps: 2/77 ( 2.6%) # Score: 375.0 # # #======================================= AE017333 1 ggcggtgtagctcagctggctagagcgtacggttcatacccgtgaggtcg 50 |||||||||||||||||||||||||||||||||||||||||||||||||| BSn5_t20976 1 ggcggtgtagctcagctggctagagcgtacggttcatacccgtgaggtcg 50 AE017333 51 ggggttcgatcccctccgccgctac-- 75 ||||||||||||||||||||||||| BSn5_t20976 51 ggggttcgatcccctccgccgctacca 77
Данное выравнивание хорошее. Гомологичный участок и правда соответствует tRNA.