Учебный сайт

Бредихина Данилы

Учебный сайт Бредихина Данилы

Занятие 6: Программы пакета BLAST

Поиск в геноме участков, кодирующих белки, похожие на заданный

Зная аминокислотную последовательность белка CDD_BACSU из Bacillus subtilis, мы хотим определить, закодированы ли похожие белки в геноме другого организма. С этой целью можно воспользоваться программами пакета BLAST.

Создадим индексные файлы пакета BLAST+ для поиска по геному бактерии Streptococcus agalactiae с помощью следующей команды:

makeblastdb -in sa_genome.fasta -out sa -dbtype nucl

Затем воспользуемся программой TBLASTN для поиска гомологов белка CDD_BACSU по геному бактерии Streptococcus agalactiae. Для этого выполним соответствующую команду с необходимыми параметрами:

tblastn -query cdd_bacsu.fasta -db sa -out cdd_sa.txt -evalue 0.001

По результатам поиска, сохранённым в файле cdd_sa.txt, заполним таблицу.

Поиск гомологов белка CDD_BACSU в геноме бактерии Streptococcus agalactiae

Число находок с E-value < 0,001 1
E-value лучшей находки 1e-34
Название последовательности с лучшей находкой Streptococcus agalactiae NEM316 complete genome, segment 6 (AL766848)
Координаты лучшей находки 30163 - 30537
Доля последовательности белка CDD_BACSU, вошедшая в выравнивание с лучшей находкой 125/136 ≈ 0.92

Нахождение записи EMBL по последовательности программой BLASTN

Осуществим, пользуясь интерфейсом к программе BLASTN на сайте EBI, поиск в разделе EMBL Standard Prokaryote, задав нуклеотидную последовательность.

В результате (см. файл blastn_out.txt) нашлось 13 записей, 3 из которых имеют процент совпадения равный 100% и E-value = 4.0E-96. Эти записи имеют идентификаторы CP000100, AP008231 и AB000111. Первые две из этих записей содержат последовательность всего генома Synechococcus elongatus разных штаммов, а третья - последовательность рибосомальных белков той же бактерии.

Рассмотрим, например, вторую в списке находку:

  • Она соответствует записи с идентификатором AP008231 в EMBL.
  • Координаты заданной последовательности в записи AP008231: 2017631 - 2017810, при этом последовательность соответствует направлению записи.
  • В поле FT записи AP008231 описан один участок, включающий искомую последовательность. Он имеет координаты 2017511 - 2018152, и его направление прямое относительно заданной последовательности. Фрагмент записи AP008231, содержащий информацию об этом участке приведён ниже.

FT CDS 2017511..2018152 FT /codon_start=1 FT /transl_table=11 FT /gene="rpl3" FT /locus_tag="syc1865_d" FT /product="50S ribosomal protein L3" FT /db_xref="GOA:O24689" FT /db_xref="InterPro:IPR000597" FT /db_xref="InterPro:IPR009000" FT /db_xref="InterPro:IPR019926" FT /db_xref="InterPro:IPR019927" FT /db_xref="UniProtKB/Swiss-Prot:O24689" FT /protein_id="BAD80055.1" FT /translation="MSIGILGTKLGMTQIFDESGKAVPVTVIQAGPCPITQIKTVATDG FT YNAIQIGFLEVREKQLSKPELGHLSKAGAPPLRHLLEYRVPSTDGLELGQALTADRFEA FT GQKVDVQGHTIGRGFTGYQKRHGFARGPMSHGSKNHRLPGSTGAGTTPGRVYPGKRMAG FT RSGNDKTTIRGLTVVRVDADRNLLLVKGSVPGKPGALLNITPATVVGQQA"

Поиск гомологов гена программой BLASTN

Для того, чтобы осуществить поиск, необходимо создать fasta-файл с нуклеотидной последовательностью, кодирующей белок CDD_BACSU. Для этого в записи Swiss-Prot этого белка выберем одну из записей EMBL, на которые в файле приведены ссылки, например, U18532. Затем с помощью следующей команды вырежем из файла U18532.embl участок с координатами 112 - 522 по прямой цепи:

seqret U18532.embl -sask

В результате получим файл cdd.fasta.

Затем выполним поиск гомологов этого гена в геноме бактерии Streptococcus agalactiae с помощью программы blastn:

blastn -query cdd.fasta -db sa -out cdd_sa_blastn.txt -evalue 0.001 -task blastn

По результатам поиска, сохранённым в файле cdd_sa_blastn.txt, заполним таблицу.

Поиск гомологов белка CDD_BACSU в геноме бактерии Streptococcus agalactiae

Число находок с E-value < 0,001 1
E-value лучшей находки 1e-09
Название последовательности с лучшей находкой Streptococcus agalactiae NEM316 complete genome, segment 6 (AL766848)
Координаты лучшей находки 30190 - 30372
Доля последовательности гена белка CDD_BACSU, вошедшая в выравнивание с лучшей находкой 184/411 ≈ 0.45

Как мы видим, количество находок не изменилось, при этом найденная запись одинакова в обоих случаях. Если в записи EMBL этой находки найти информацию об участке, вошедшем в выравнивание, то можно узнать, что продукт гена gbs0941 не известен, однако сходен с цитидин-дезаминазой. Этот ген имеет один кодирующий участок с координатами 30163 - 30552 на прямой цепи. В выравнивание вошла его часть 30163 - 30537.

По изменению значения E-value можно судить о менее точных результатах при поиске с помощью blastn, причём значения различаются достаточно сильно: 1e-34 при поиске с помощью tblastn и 1e-09 - с помощью blastn. Также мы видим, что при поиске с использованием программы blastn доля искомой последовательности, вошедшей в выравнивание с лучшей находкой, намного ниже, если сравнивать с поиском с помощью tblastn (0.45 против 0.92).

Ссылки

  1. Файл sa_genome.fasta.
  2. Файл cdd_bacsu.fasta.
  3. Файл cdd_sa.txt.
  4. Файл bredikhin.fasta.
  5. Файл blastn_out.txt.
  6. Файл P19079.txt.
  7. Файл U18532.embl.
  8. Файл cdd.fasta.
  9. Файл cdd_sa_blastn.txt.
< На страницу семестра ∧ Наверх