Программы пакета BLAST для работы с нуклеотидными последовательностями.


задание №1. Поиск в геноме участков, кодирующих белки, похожие на заданный.


Используя аминокислотную последовательность моего белка из Bacillus subtilis, определим, закодированы ли похожие белки в геноме Listeria monocytogenes, не пользуясь аннотацией генома.

Создадим индексные файлы пакета BLAST+ для поиска по геному бактерии Listeria monocytogenes с помощью следующей команды:
makeblastdb -in lm_genome.fasta -out lm -dbtype nucl

Теперь используем программу TBLASTN для поиска гомологов белка ACP_BACSU по только что индексированному геному Listeria monocytogenes.
Для этого выполним команду tblastn с порогом на E-value 0,001:
tblastn -query ACP_BACSU.fasta -db lm -out LM_ACP.txt -evalue 0.001

По результатам поиска, сохранённым в файле LM_ACP.txt, заполним таблицу.

Поиск гомологов белка ACP_BACSU в геноме Listeria monocytogenes
Число находок с E-value < 0,001 1
E-value лучшей находки 3e-17
Название последовательности с лучшей находкой Listeria monocytogenes strain EGD, complete genome, segment 9/12 (AL591981), рамка -2
Координаты лучшей находки (от-до) 128274 - 128053
Доля последовательности ACP_BACSU, вошедшая в выравнивание с лучшей находкой 74/77 (~96%)


Задание 2. Нахождение записи EMBL по последовательности программой BLASTN

Используем заданную нуклеотидную последовательность для поиска в программе BLASTN на сайте EBI :
Для этого в меню Tools выберем "Similarity&Homology", затем "NCBI BLAST", затем пройдем по гиперссылке "Nucleotide Databases".
Поскольку известно, что последовательность из бактерии и описана в одной из стандартных записей, снимем галочку против "EMBL Release", после чего щёлкнем сначала по треугольнику возле "EMBL Release", затем по треугольнику возле "EMBL Prokaryote" и поставим галочку против "EMBL Standard Prokaryote".

В результате получим 4 записи (CP000100; AP008231; AB000100; AF001333) с совпадением 100%.
Все они относятся к бактерии Synechococcus elongatus и представляют собой разные результаты секвенирования ее генома.

Рассмотрим первую находку (CP000100) подробнее:

  FT   gene            complement(2186064..2186855)
  FT                   /locus_tag="Synpcc7942_2106"
  FT   CDS             complement(2186064..2186855)
  FT                   /codon_start=1
  FT                   /transl_table=11
  FT                   /locus_tag="Synpcc7942_2106"
  FT                   /product="nitrate transport permease"
  FT                   /db_xref="GOA:Q7BW13"
  FT                   /db_xref="InterPro:IPR000515"
  FT                   /db_xref="UniProtKB/TrEMBL:Q7BW13"
  FT                   /inference="non-experimental evidence, no additional
  FT                   details recorded"
  FT                   /protein_id="ABB58136.1"
  FT                   /translation="MVRTPVPLYLRWAVSILSVLAFLAIWQIAAASGFLGKTFPGSLRT
  FT                   LQDLFGWLSDPFFDNGPNDLGIGWNLLISLRRVAIGYLLATVVAIPLGIAIGMSALASS
  FT                   IFSPFVQLLKPVSPLAWLPIGLFLFRDSELTGVFVILISSLWPTLINTAFGVANVNPDF
  FT                   LKVSQSLGASRWRTILKVILPAALPSIIAGMRISMGIAWLVIVAAEMLLGTGIGYFIWN
  FT                   EWNNLSLPNIFSAIIIIGIVGILLDQGFRFLENQFSYAGNR"


Задание 3. Поиск гомологов гена программой BLASTN

Создадим fasta-файл с нуклеотидной последовательностью, кодирующей белок ACP_BACSU.
Для этого возьмем запись EMBL D64116 (файл D64116.fasta) и вырежем участок последовательности 140..373 программой seqret в отдельный файл D64116_cut.fasta командой:
 seqret D64116.fasta -sask
Выполним поиск гомологов этого гена в геноме бактерии Listeria monocytogenes (как в задании 1) с помощью программы blastn:
blastn -task blastn -query D64116_cut.fasta -db lm -out ACP_LM_blastn.txt -evalue 0.001
Результаты из файла ACP_LM_blastn.txt занесем в сравнительную таблицу:

Сравнение программ TBLASTN и BLASTN
TBLASTN BLASTN
Число находок с E-value < 0,001 1 1
E-value лучшей находки 3e-17 2e-38
Название последовательности с лучшей находкой Listeria monocytogenes strain EGD, complete genome, segment 9/12 (AL591981), рамка -2 Listeria monocytogenes strain EGD, complete genome, segment 9/12 (AL591981)
Координаты лучшей находки (от-до) 128274 - 128053 128274 - 128056
Доля последовательности ACP_BACSU, вошедшая в выравнивание с лучшей находкой 74/77 (~96%) 168/234 (~72%)

К большому удивлению, BLASTN выровнял последовательности достаточно точно.
То, что при этом E-value выравнивания улучшился настолько сильно, кажется даже невозможным. Но тут нужно вспомнить, что программы используют разные матрицы для выравниваний, поэтому такой результат все же допустим.
Заметим, также, что, например, левая граница выравнивания совпадает абсолютно, а правая практически точно, лучшая находка выбрана правильно и лишних нет, а доля совпадений велика при почти полном отсутствии гепов.

Все это говорит о том, что конкретно в данном случае BLASTN смог выровнять последовательности, несомненно, хуже, чем TBLASTN, но все же достаточно хорошо, чтобы выявить признак гомологии последовательностей.





На страницу 3 семестра


© Aleshin Vasily