Программы пакета BLAST для работы с нуклеотидными последовательностями.
задание №1. Поиск в геноме участков, кодирующих белки, похожие на заданный.
Используя
аминокислотную последовательность
моего белка из Bacillus subtilis, определим, закодированы ли похожие белки в геноме Listeria monocytogenes,
не пользуясь аннотацией генома.
Создадим индексные файлы пакета BLAST+ для поиска по геному бактерии Listeria monocytogenes
с помощью следующей команды:
makeblastdb -in lm_genome.fasta -out lm -dbtype nucl
Теперь используем программу TBLASTN для поиска гомологов белка ACP_BACSU
по только что индексированному геному Listeria monocytogenes.
Для этого выполним команду tblastn с порогом на E-value 0,001:
tblastn -query ACP_BACSU.fasta -db lm -out LM_ACP.txt -evalue 0.001
По результатам поиска, сохранённым в файле
LM_ACP.txt,
заполним таблицу.
Поиск гомологов белка ACP_BACSU в геноме Listeria monocytogenes
Число находок с E-value < 0,001 |
1 |
E-value лучшей находки |
3e-17 |
Название последовательности с лучшей находкой |
Listeria monocytogenes strain EGD, complete
genome, segment 9/12 (AL591981), рамка -2 |
Координаты лучшей находки (от-до) |
128274 - 128053 |
Доля последовательности ACP_BACSU,
вошедшая в выравнивание с лучшей находкой |
74/77 (~96%) |
Задание 2. Нахождение записи EMBL по последовательности программой BLASTN
Используем заданную нуклеотидную последовательность для поиска в программе BLASTN
на сайте EBI :
Для этого в меню Tools выберем "Similarity&Homology", затем "NCBI BLAST", затем пройдем по гиперссылке
"Nucleotide Databases".
Поскольку известно, что последовательность из бактерии и описана в одной из стандартных записей,
снимем галочку против "EMBL Release", после чего щёлкнем сначала по треугольнику возле "EMBL Release",
затем по треугольнику возле "EMBL Prokaryote" и поставим галочку против "EMBL Standard Prokaryote".
В результате получим 4 записи (CP000100; AP008231; AB000100; AF001333) с совпадением 100%.
Все они относятся к бактерии Synechococcus elongatus и представляют собой разные результаты секвенирования
ее генома.
Рассмотрим первую находку (CP000100) подробнее:
- В ней описан полный геном Synechococcus elongatus (Bacteria, Cyanobacteria, Chroococcales, Synechococcus).
- Последовательность выравнивается по 2186795 - 2186616 нуклеотидам, то есть выравнивание
идет с комплиментарной последовательностью.
- В поле FT последовательности описан более крупный участок (2186064..2186855),
также кодирующий белок по комплиментарной цепи (запись приведена ниже). По этим данным получается, что
исходная последовательность - часть гена белка "nitrate transport permease".
FT gene complement(2186064..2186855)
FT /locus_tag="Synpcc7942_2106"
FT CDS complement(2186064..2186855)
FT /codon_start=1
FT /transl_table=11
FT /locus_tag="Synpcc7942_2106"
FT /product="nitrate transport permease"
FT /db_xref="GOA:Q7BW13"
FT /db_xref="InterPro:IPR000515"
FT /db_xref="UniProtKB/TrEMBL:Q7BW13"
FT /inference="non-experimental evidence, no additional
FT details recorded"
FT /protein_id="ABB58136.1"
FT /translation="MVRTPVPLYLRWAVSILSVLAFLAIWQIAAASGFLGKTFPGSLRT
FT LQDLFGWLSDPFFDNGPNDLGIGWNLLISLRRVAIGYLLATVVAIPLGIAIGMSALASS
FT IFSPFVQLLKPVSPLAWLPIGLFLFRDSELTGVFVILISSLWPTLINTAFGVANVNPDF
FT LKVSQSLGASRWRTILKVILPAALPSIIAGMRISMGIAWLVIVAAEMLLGTGIGYFIWN
FT EWNNLSLPNIFSAIIIIGIVGILLDQGFRFLENQFSYAGNR"
Задание 3. Поиск гомологов гена программой BLASTN
Создадим fasta-файл с нуклеотидной последовательностью, кодирующей белок ACP_BACSU.
Для этого возьмем запись EMBL
D64116
(файл D64116.fasta)
и вырежем участок последовательности 140..373 программой seqret
в отдельный файл D64116_cut.fasta командой:
seqret D64116.fasta -sask
Выполним поиск гомологов этого гена в геноме бактерии Listeria monocytogenes (как в задании 1) с помощью программы blastn:
blastn -task blastn -query D64116_cut.fasta -db lm -out ACP_LM_blastn.txt -evalue 0.001
Результаты из файла
ACP_LM_blastn.txt
занесем в сравнительную таблицу:
Сравнение программ TBLASTN и BLASTN
|
TBLASTN |
BLASTN |
Число находок с E-value < 0,001 |
1 |
1 |
E-value лучшей находки |
3e-17 |
2e-38 |
Название последовательности с лучшей находкой |
Listeria monocytogenes strain EGD, complete
genome, segment 9/12 (AL591981), рамка -2 |
Listeria monocytogenes strain EGD, complete
genome, segment 9/12 (AL591981)
|
Координаты лучшей находки (от-до) |
128274 - 128053 |
128274 - 128056 |
Доля последовательности ACP_BACSU,
вошедшая в выравнивание с лучшей находкой |
74/77 (~96%) |
168/234 (~72%) |
К большому удивлению, BLASTN выровнял последовательности достаточно точно.
То, что при этом E-value выравнивания улучшился настолько сильно, кажется даже невозможным. Но тут нужно вспомнить,
что программы используют разные матрицы для выравниваний, поэтому такой результат все же допустим.
Заметим, также, что, например, левая граница выравнивания совпадает абсолютно, а правая практически точно,
лучшая находка выбрана правильно и лишних нет, а доля совпадений велика при почти полном отсутствии гепов.
Все это говорит о том, что конкретно в данном случае BLASTN смог выровнять последовательности, несомненно,
хуже, чем TBLASTN, но все же достаточно хорошо, чтобы выявить признак гомологии последовательностей.
На страницу 3 семестра
© Aleshin Vasily