Занятие 6: Программы пакета BLAST
Поиск в геноме участков, кодирующих белки, похожие на заданный
Зная аминокислотную последовательность белка CDD_BACSU из Bacillus subtilis, мы хотим определить, закодированы ли похожие белки в геноме другого организма. С этой целью можно воспользоваться программами пакета BLAST.
Создадим индексные файлы пакета BLAST+ для поиска по геному бактерии Streptococcus agalactiae с помощью следующей команды:
makeblastdb -in sa_genome.fasta -out sa -dbtype nucl
Затем воспользуемся программой TBLASTN для поиска гомологов белка CDD_BACSU по геному бактерии Streptococcus agalactiae. Для этого выполним соответствующую команду с необходимыми параметрами:
tblastn -query cdd_bacsu.fasta -db sa -out cdd_sa.txt -evalue 0.001
По результатам поиска, сохранённым в файле cdd_sa.txt, заполним таблицу.
Поиск гомологов белка CDD_BACSU в геноме бактерии Streptococcus agalactiae
Число находок с E-value < 0,001 | 1 |
E-value лучшей находки | 1e-34 |
Название последовательности с лучшей находкой | Streptococcus agalactiae NEM316 complete genome, segment 6 (AL766848) |
Координаты лучшей находки | 30163 - 30537 |
Доля последовательности белка CDD_BACSU, вошедшая в выравнивание с лучшей находкой | 125/136 ≈ 0.92 |
Нахождение записи EMBL по последовательности программой BLASTN
Осуществим, пользуясь интерфейсом к программе BLASTN на сайте EBI, поиск в разделе EMBL Standard Prokaryote, задав нуклеотидную последовательность.
В результате (см. файл blastn_out.txt) нашлось 13 записей, 3 из которых имеют процент совпадения равный 100% и E-value = 4.0E-96. Эти записи имеют идентификаторы CP000100, AP008231 и AB000111. Первые две из этих записей содержат последовательность всего генома Synechococcus elongatus разных штаммов, а третья - последовательность рибосомальных белков той же бактерии.
Рассмотрим, например, вторую в списке находку:
- Она соответствует записи с идентификатором AP008231 в EMBL.
- Координаты заданной последовательности в записи AP008231: 2017631 - 2017810, при этом последовательность соответствует направлению записи.
- В поле FT записи AP008231 описан один участок, включающий искомую последовательность. Он имеет координаты 2017511 - 2018152, и его направление прямое относительно заданной последовательности. Фрагмент записи AP008231, содержащий информацию об этом участке приведён ниже.
FT CDS 2017511..2018152 FT /codon_start=1 FT /transl_table=11 FT /gene="rpl3" FT /locus_tag="syc1865_d" FT /product="50S ribosomal protein L3" FT /db_xref="GOA:O24689" FT /db_xref="InterPro:IPR000597" FT /db_xref="InterPro:IPR009000" FT /db_xref="InterPro:IPR019926" FT /db_xref="InterPro:IPR019927" FT /db_xref="UniProtKB/Swiss-Prot:O24689" FT /protein_id="BAD80055.1" FT /translation="MSIGILGTKLGMTQIFDESGKAVPVTVIQAGPCPITQIKTVATDG FT YNAIQIGFLEVREKQLSKPELGHLSKAGAPPLRHLLEYRVPSTDGLELGQALTADRFEA FT GQKVDVQGHTIGRGFTGYQKRHGFARGPMSHGSKNHRLPGSTGAGTTPGRVYPGKRMAG FT RSGNDKTTIRGLTVVRVDADRNLLLVKGSVPGKPGALLNITPATVVGQQA"
Поиск гомологов гена программой BLASTN
Для того, чтобы осуществить поиск, необходимо создать fasta-файл с нуклеотидной последовательностью, кодирующей белок CDD_BACSU. Для этого в записи Swiss-Prot этого белка выберем одну из записей EMBL, на которые в файле приведены ссылки, например, U18532. Затем с помощью следующей команды вырежем из файла U18532.embl участок с координатами 112 - 522 по прямой цепи:
seqret U18532.embl -sask
В результате получим файл cdd.fasta.
Затем выполним поиск гомологов этого гена в геноме бактерии Streptococcus agalactiae с помощью программы blastn:
blastn -query cdd.fasta -db sa -out cdd_sa_blastn.txt -evalue 0.001 -task blastn
По результатам поиска, сохранённым в файле cdd_sa_blastn.txt, заполним таблицу.
Поиск гомологов белка CDD_BACSU в геноме бактерии Streptococcus agalactiae
Число находок с E-value < 0,001 | 1 |
E-value лучшей находки | 1e-09 |
Название последовательности с лучшей находкой | Streptococcus agalactiae NEM316 complete genome, segment 6 (AL766848) |
Координаты лучшей находки | 30190 - 30372 |
Доля последовательности гена белка CDD_BACSU, вошедшая в выравнивание с лучшей находкой | 184/411 ≈ 0.45 |
Как мы видим, количество находок не изменилось, при этом найденная запись одинакова в обоих случаях. Если в записи EMBL этой находки найти информацию об участке, вошедшем в выравнивание, то можно узнать, что продукт гена gbs0941 не известен, однако сходен с цитидин-дезаминазой. Этот ген имеет один кодирующий участок с координатами 30163 - 30552 на прямой цепи. В выравнивание вошла его часть 30163 - 30537.
По изменению значения E-value можно судить о менее точных результатах при поиске с помощью blastn, причём значения различаются достаточно сильно: 1e-34 при поиске с помощью tblastn и 1e-09 - с помощью blastn. Также мы видим, что при поиске с использованием программы blastn доля искомой последовательности, вошедшей в выравнивание с лучшей находкой, намного ниже, если сравнивать с поиском с помощью tblastn (0.45 против 0.92).
Ссылки
- Файл sa_genome.fasta.
- Файл cdd_bacsu.fasta.
- Файл cdd_sa.txt.
- Файл bredikhin.fasta.
- Файл blastn_out.txt.
- Файл P19079.txt.
- Файл U18532.embl.
- Файл cdd.fasta.
- Файл cdd_sa_blastn.txt.