← Назад ко 2 семестру

Практикум 10. Программа Blast.

Поиск гомологов белка в Swiss-Prot

В качестве исходного белка был выбран белок superoxide reductase из археи Pyrococcus abyssi GE5.

Название белка Superoxide reductase
Организм Pyrococcus abyssi GE5
UniProt/Swiss-Prot AC Q9V098
NCBI BLAST query ID Q9V098.2
Длина белка 115 аминокислотных остатков

2. Параметры BLAST-поиска

Поиск проводился на сайте NCBI BLAST в разделе Protein BLAST. В поле запроса был введён идентификатор белка Q9V098. В качестве базы данных была выбрана UniProtKB/Swiss-Prot.

Текстовая выдача BLAST сохранена в отдельный файл: blast_Q9V098.txt.

3. Результаты BLAST-поиска

В результате поиска было найдено 17 последовательностей, дающих значимое выравнивание с исходным белком. Этого количества достаточно для дальнейшего выбора нескольких гомологов и построения множественного выравнивания.

Для дальнейшей работы были выбраны 7 последовательностей. При выборе учитывались: низкое значение E-value, высокое покрытие запроса, сходная длина белков, аннотация белка как superoxide reductase или desulfoferrodoxin/SOR, а также наличие достаточно хорошего выравнивания с исходным белком.

Accession Белок Организм Query cover E-value Identity
1 Q9V098 Superoxide reductase Pyrococcus abyssi GE5 100% 1e-81 100.00%
2 O58810 Superoxide reductase Pyrococcus horikoshii OT3 100% 3e-76 93.04%
3 Q5JF09 Superoxide reductase Thermococcus kodakarensis KOD1 100% 3e-73 88.70%
4 P82385 Superoxide reductase Pyrococcus furiosus DSM 3638 100% 1e-55 70.16%
5 O29903 Putative superoxide reductase Archaeoglobus fulgidus DSM 4304 97% 1e-41 58.68%
6 Q9WZC6 Putative superoxide reductase Thermotoga maritima MSB8 98% 2e-30 45.60%
7 P22076 Desulfoferrodoxin / superoxide reductase Desulfovibrio desulfuricans 90% 2e-08 37.50%

4. Обоснование выбора последовательностей

Первые четыре выбранные последовательности являются наиболее близкими гомологами исходного белка. Они имеют почти полное покрытие запроса, очень низкие значения E-value и высокую долю идентичных аминокислотных остатков. Эти белки найдены у близких архейных организмов: Pyrococcus abyssi, Pyrococcus horikoshii, Thermococcus kodakarensis и Pyrococcus furiosus.

Белок из Archaeoglobus fulgidus был также включён в анализ, поскольку он имеет хорошее покрытие запроса, низкое E-value и аннотирован как putative superoxide reductase. Несмотря на то, что он менее похож на исходный белок, чем белки из рода Pyrococcus, он всё ещё является хорошим гомологом.

Белок из Thermotoga maritima был выбран как более удалённый гомолог. Он имеет более низкий процент идентичности, но всё ещё хорошо выравнивается с исходной последовательностью и имеет значимое значение E-value.

Белок P22076 из Desulfovibrio desulfuricans был оставлен как пример ещё более удалённого гомолога. Он аннотирован как desulfoferrodoxin / superoxide reductase. Хотя его сходство с исходным белком ниже, он всё равно выравнивается с основной областью SOR-белка и может быть использован для сравнения более консервативных участков.

Файл с выбранными последовательностями: sor_selected.fasta.

5. Множественное выравнивание

Множественное выравнивание выбранных последовательностей было выполнено в программе Jalview с использованием сервиса MAFFT. В итоговое выравнивание вошли все 7 выбранных белков.

Файл проекта Jalview: sor_alignment.jvp.

6. Анализ множественного выравнивания

Множественное выравнивание выбранных последовательностей было выполнено в программе Jalview с использованием алгоритма MAFFT. В выравнивание вошли 7 белков, включающих как близкие архейные гомологи, так и более удалённые бактериальные белки семейства superoxide reductase / desulfoferrodoxin.

В целом выравнивание получилось плотным и однородным: большинство последовательностей имеют сходную длину (около 115 аминокислот), и выравниваются практически по всей длине без длинных вставок и разрывов. Это указывает на высокую степень структурного сходства и наличие общего домена у всех выбранных белков.

Для близких гомологов (белки из родов Pyrococcus и Thermococcus) наблюдается очень высокая степень сходства: в выравнивании видно большое количество полностью консервативных позиций, где аминокислотные остатки совпадают у всех или почти всех последовательностей, что соответствует их высокой доле идентичности (до ~90%).

У более удалённых гомологов, таких как белки из Archaeoglobus fulgidus, Thermotoga maritima и Desulfovibrio desulfuricans, сходство ниже, однако они сохраняют основную выравниваемую область. В их последовательностях наблюдается больше замен аминокислот и небольшие вставки или удаления, но общая структура выравнивания остаётся сопоставимой с исходным белком.

В выравнивании отчётливо видны консервативные участки, которые, вероятно, соответствуют функционально важным областям белка. Особое значение имеют остатки, участвующие в связывании иона железа, так как superoxide reductase является металлсодержащим ферментом. Сохранение этих участков у большинства последовательностей указывает на сохранение каталитической функции у всех выбранных белков.

Также можно отметить, что консервативные позиции распределены неравномерно: некоторые участки последовательности сильно консервативны, в то время как другие более вариабельны. Это типично для ферментов, где активный центр и ключевые структурные элементы сохраняются, а периферические участки могут изменяться.

В процессе анализа выравнивания не было обнаружено последовательностей, которые явно не относятся к данному семейству. Все выбранные белки выравниваются по основной области SOR-домена, не имеют больших несовпадающих участков и не демонстрируют аномально низкого сходства. Поэтому дополнительные удаления последовательностей из выравнивания не проводились.

Таким образом, множественное выравнивание подтверждает, что выбранные последовательности являются гомологами исходного белка и принадлежат к одному функциональному семейству superoxide reductase / desulfoferrodoxin.

Поиск гомологов зрелого вирусного белка, вырезанного из полипротеина

1. Выбор исходного белка

В качестве исходной последовательности был выбран полипротеин вируса Dengue virus type 1 из базы UniProtKB/Swiss-Prot.

  • UniProt accession: P17763
  • UniProt ID: POLG_DEN1W
  • Название белка: Genome polyprotein
  • Организм: Dengue virus type 1, strain Nauru/West Pac/1974
  • Длина полипротеина: 3392 аминокислоты
  • Статус записи: Reviewed, Swiss-Prot

В разделе PTM/Processing в записи UniProt был найден зрелый белок RNA-directed RNA polymerase/Methyltransferase NS5. Он аннотирован как участок Chain с координатами:

2494–3392

Таким образом, для дальнейшего анализа был выбран зрелый белок NS5 длиной 899 аминокислот.

2. Вырезание зрелого белка NS5 из полипротеина

Для вырезания участка NS5 из полного полипротеина была использована программа seqret.

Использованная команда:

seqret 'sw:P17763[2494:3392]' denv1_NS5.fasta

В результате был получен файл:

Файл содержит последовательность зрелого белка NS5 вируса Dengue virus type 1.

3. Поиск гомологов с помощью BLAST

Полученная последовательность NS5 была использована как запрос в Protein BLAST на сайте NCBI.

  • Программа: blastp
  • База данных: Swiss-Prot
  • Фильтр по организмам: не использовался
  • Длина запроса: 899 аминокислот
  • RID: YX4YD7RZ014

В результатах BLAST были выбраны белки вирусов семейства Flaviviridae, гомологичные исходному NS5. Хотя в описании многих находок указано Genome polyprotein, это нормально, так как зрелый белок NS5 является частью вирусного полипротеина.

4. Выбранные гомологи

Организм Белок Accession Почему выбран
1 Dengue virus type 1 NS5, исходный белок P17763 Исходная последовательность для поиска
2 Dengue virus type 2 Genome polyprotein, участок NS5 P07564.2 Близкий гомолог NS5 другого серотипа Dengue virus
3 Dengue virus type 3 Genome polyprotein, участок NS5 Q9D3D5.1 Близкий гомолог NS5 другого серотипа Dengue virus
4 Dengue virus type 4 Genome polyprotein, участок NS5 P09866.2 Близкий гомолог NS5 другого серотипа Dengue virus
5 West Nile virus Genome polyprotein, участок NS5 Q9Q6P4.2 Гомолог NS5 у другого флавивируса
6 Yellow fever virus Genome polyprotein, участок NS5 P03314.1 Гомолог NS5 у другого флавивируса
7 Zika virus Genome polyprotein, участок NS5 Q32ZE1.1 Гомолог NS5 у другого флавивируса
  • Выбранные последовательности гомологов (FASTA): sor_selected.fasta

5. Множественное выравнивание

Для выбранных последовательностей было построено множественное выравнивание в программе Jalview. В выравнивание были включены:

  • исходный зрелый белок NS5 Dengue virus type 1;
  • 6 найденных гомологичных последовательностей из результатов BLAST.

Всего в итоговом выравнивании получилось 7 последовательностей.

Выравнивание было построено с использованием сервиса MUSCLE в Jalview. После построения выравнивания были удалены участки последовательностей, которые выходили за пределы исходного зрелого белка NS5. Обрезка выполнялась по строке исходного белка DENV1_NS5: все столбцы левее первой аминокислоты исходной последовательности и правее последней аминокислоты были удалены. https://blast.ncbi.nlm.nih.gov/Blast.cgi

Итоговое выравнивание было сохранено как проект Jalview:

  • Проект множественного выравнивания Jalview: sor_alignment.jvp

6. Обсуждение результата

В результате BLAST-поиска были найдены гомологи белка NS5 у нескольких представителей флавивирусов. Наиболее близкими оказались NS5-белки других серотипов Dengue virus, что ожидаемо, так как они принадлежат к тому же виду вирусов. Также были выбраны более удалённые, но всё ещё хорошо гомологичные последовательности из Zika virus, Yellow fever virus и West Nile virus.

Белок NS5 является консервативным неструктурным белком флавивирусов. Он содержит участки, связанные с метилтрансферазной активностью и РНК-зависимой РНК-полимеразной активностью. Поэтому при выравнивании наблюдается большое число совпадающих и сходных аминокислотных позиций.

3. Исследование зависимости E-value от объёма банка

В предыдущем варианте отчёта в этом упражнении использовался зрелый белок NS5 (длина 899 аминокислот). У него все гомологичные вирусные находки имели E-value, отображаемое в выдаче BLAST как 0.0 — это так называемый «машинный ноль», то есть число настолько малое, что программа округляет его до нуля. По одной паре нулевых значений корректно посчитать отношение по формуле Карлина–Альтшуля нельзя. Поэтому для этого упражнения был выбран другой, более короткий зрелый белок из того же полипротеина — Capsid protein C. Использование более короткого белка даёт умеренные значения E-value, и формулу Карлина–Альтшуля становится возможным проверить численно.

3.1. Выбор зрелого белка

В записи UniProt P17763 (POLG_DEN1W) в поле FT CHAIN с пояснением /note="Capsid protein C" указаны координаты 1–101 в полипротеине. Следовательно, длина зрелого белка Capsid protein C составляет 101 аминокислотный остаток.

ПараметрЗначение
Исходный полипротеинPOLG_DEN1W (P17763), Dengue virus type 1
Зрелый белок (CHAIN)Capsid protein C
Координаты в полипротеине1–101
Длина зрелого белка101 аминокислотный остаток

Последовательность Capsid protein C была вырезана из полипротеина средствами EMBOSS:

seqret 'sw:P17763[1:101]' denv1_capsidC.fasta

Файл с последовательностью: denv1_capsidC.fasta.

3.2. Два BLAST-поиска с одной и той же последовательностью

Для исследования зависимости E-value от объёма банка были выполнены два BLAST-поиска одного и того же запроса (denv1_capsidC.fasta) в банке UniProtKB/Swiss-Prot. Параметры поиска одинаковые во всём, кроме фильтра по организмам.

ПараметрПоиск 1 (без фильтра)Поиск 2 (с фильтром Viruses)
Программаblastpblastp
БанкUniProtKB/Swiss-ProtUniProtKB/Swiss-Prot
Фильтр по организмамнетViruses (taxid:10239)
Запросdenv1_capsidC.fastadenv1_capsidC.fasta
Прочие параметрыпо умолчаниюте же, что в Поиске 1
Число находок в сохранённой выдаче4444
Размер банка, а.о.n₁ = 185 539 472n₂ = 7 727 933
Число последовательностей в банке486 62616 568

Важно, что значения n₁ и n₂ брались не из файлов с выравниваниями, а из полных текстовых отчётов BLAST. В файлах с выравниваниями удобно смотреть список находок, accession, score и E-value, но статистический блок с размером базы данных находится в полном отчёте.

Текстовые выдачи BLAST:

Для каждого BLAST-поиска были сохранены две версии текстовой выдачи. Файлы blast_capsidC_no_filter.txt и blast_capsidC_viruses.txt использовались для выбора контрольной находки и сравнения её score и E-value. Полные текстовые отчёты blast_capsidC_no_filterall.txt и blast_capsidC_virusesall.txt использовались для поиска статистического блока BLAST, в котором указаны строки Number of letters in database и Number of sequences in database.

  • blast_capsidC_no_filter.txt — текстовая выдача с выравниваниями для поиска без фильтра;
  • blast_capsidC_viruses.txt — текстовая выдача с выравниваниями для поиска с фильтром Viruses (taxid:10239);
  • blast_capsidC_no_filter_all.txt — полный текстовый отчёт BLAST для поиска без фильтра, использован для определения размера банка;
  • blast_capsidC_viruses_all.txt — полный текстовый отчёт BLAST для поиска с фильтром Viruses, использован для определения размера вирусной части банка.

3.3. Выбор контрольной находки

Для оценки доли вирусных белков в Swiss-Prot нужно найти одну и ту же последовательность в обеих выдачах и сравнить её E-value. Для этого не подходят находки с E-value = 0.0, так как это «машинный ноль». Поэтому была выбрана находка с ненулевым E-value, у которой score в обеих выдачах одинаков. Это означает, что сравнивается одно и то же выравнивание, а изменение E-value связано с изменением размера банка.

В качестве контрольной находки была выбрана последовательность Q9Q6P4.2Genome polyprotein вируса West Nile virus strain NY-99.

ПараметрПоиск без фильтраПоиск с фильтром Viruses
AccessionQ9Q6P4.2Q9Q6P4.2
БелокGenome polyproteinGenome polyprotein
ОрганизмWest Nile virus strain NY-99West Nile virus strain NY-99
Bits-score (Max Score)75.975.9
E-valueE₁ = 2e-16E₂ = 1e-17

3.4. Применение формулы Карлина–Альтшуля

Ожидаемое число случайных совпадений с данным или лучшим score даётся формулой Карлина–Альтшуля:

E = K · m · n · e−λ·S

где S — score выравнивания, m — длина запроса, n — размер банка, K и λ — константы матрицы весов. В двух поисках использовалась одна и та же последовательность-запрос, одна и та же матрица BLOSUM62 и одна и та же контрольная находка с одинаковым score. Поэтому в формуле меняется только величина n — размер банка.

Для одной и той же находки:

E₁ / E₂ = n₁ / n₂

Следовательно, доля вирусных белков в Swiss-Prot может быть оценена как:

φ = n₂ / n₁ = E₂ / E₁

3.5. Численный результат

Подставим значения E-value контрольной находки:

φ = E₂ / E₁ = 1e-17 / 2e-16 = 0.05

То есть по E-value доля вирусных белков в Swiss-Prot составляет около 5%.

Для контроля сравним эту оценку с прямым отношением размеров банков, которое BLAST показывает в шапке текстовой выдачи:

n₂ / n₁ = 7 727 933 / 185 539 472 ≈ 0.0417

Источник оценкиЗначение φВ процентах
По формуле Карлина–Альтшуля через E-value одной находки0.055.0%
По прямому размеру банка: n₂ / n₁0.04174.17%

Оценки хорошо согласуются между собой: 5.0% и 4.17% отличаются незначительно. Небольшое расхождение связано с округлением E-value в BLAST-выдаче: значения E-value показаны не полностью, а в виде 2e-16 и 1e-17. Поэтому отношение, рассчитанное через E-value, является приближённым.

3.6. Вывод

Сравнение E-value одной и той же находки в двух BLAST-поисках, различающихся размером базы данных, подтверждает формулу Карлина–Альтшуля: при фиксированных m, S, K и λ величина E прямо пропорциональна n. Для контрольной находки Q9Q6P4.2 (West Nile virus strain NY-99) score в обоих поисках одинаков и равен 75.9, но E-value уменьшается с 2e-16 до 1e-17 при ограничении базы до вирусов. По E-value доля вирусных белков в Swiss-Prot составляет около 5.0%, а по прямому отношению размеров банков — около 4.17%. Эти значения близки, следовательно, расчёт выполнен корректно. Использование зрелого Capsid protein C вместо NS5 позволило избежать «машинного нуля» и провести численную проверку зависимости E-value от объёма банка.