Практикум 10. Программа Blast.
Поиск гомологов белка в Swiss-Prot
В качестве исходного белка был выбран белок superoxide reductase из археи Pyrococcus abyssi GE5.
| Название белка | Superoxide reductase |
| Организм | Pyrococcus abyssi GE5 |
| UniProt/Swiss-Prot AC | Q9V098 |
| NCBI BLAST query ID | Q9V098.2 |
| Длина белка | 115 аминокислотных остатков |
2. Параметры BLAST-поиска
Поиск проводился на сайте NCBI BLAST в разделе Protein BLAST. В поле запроса был введён идентификатор белка Q9V098. В качестве базы данных была выбрана UniProtKB/Swiss-Prot.
Текстовая выдача BLAST сохранена в отдельный файл: blast_Q9V098.txt.
3. Результаты BLAST-поиска
В результате поиска было найдено 17 последовательностей, дающих значимое выравнивание с исходным белком. Этого количества достаточно для дальнейшего выбора нескольких гомологов и построения множественного выравнивания.
Для дальнейшей работы были выбраны 7 последовательностей. При выборе учитывались: низкое значение E-value, высокое покрытие запроса, сходная длина белков, аннотация белка как superoxide reductase или desulfoferrodoxin/SOR, а также наличие достаточно хорошего выравнивания с исходным белком.
| № | Accession | Белок | Организм | Query cover | E-value | Identity |
|---|---|---|---|---|---|---|
| 1 | Q9V098 | Superoxide reductase | Pyrococcus abyssi GE5 | 100% | 1e-81 | 100.00% |
| 2 | O58810 | Superoxide reductase | Pyrococcus horikoshii OT3 | 100% | 3e-76 | 93.04% |
| 3 | Q5JF09 | Superoxide reductase | Thermococcus kodakarensis KOD1 | 100% | 3e-73 | 88.70% |
| 4 | P82385 | Superoxide reductase | Pyrococcus furiosus DSM 3638 | 100% | 1e-55 | 70.16% |
| 5 | O29903 | Putative superoxide reductase | Archaeoglobus fulgidus DSM 4304 | 97% | 1e-41 | 58.68% |
| 6 | Q9WZC6 | Putative superoxide reductase | Thermotoga maritima MSB8 | 98% | 2e-30 | 45.60% |
| 7 | P22076 | Desulfoferrodoxin / superoxide reductase | Desulfovibrio desulfuricans | 90% | 2e-08 | 37.50% |
4. Обоснование выбора последовательностей
Первые четыре выбранные последовательности являются наиболее близкими гомологами исходного белка. Они имеют почти полное покрытие запроса, очень низкие значения E-value и высокую долю идентичных аминокислотных остатков. Эти белки найдены у близких архейных организмов: Pyrococcus abyssi, Pyrococcus horikoshii, Thermococcus kodakarensis и Pyrococcus furiosus.
Белок из Archaeoglobus fulgidus был также включён в анализ, поскольку он имеет хорошее покрытие запроса, низкое E-value и аннотирован как putative superoxide reductase. Несмотря на то, что он менее похож на исходный белок, чем белки из рода Pyrococcus, он всё ещё является хорошим гомологом.
Белок из Thermotoga maritima был выбран как более удалённый гомолог. Он имеет более низкий процент идентичности, но всё ещё хорошо выравнивается с исходной последовательностью и имеет значимое значение E-value.
Белок P22076 из Desulfovibrio desulfuricans был оставлен как пример ещё более удалённого гомолога. Он аннотирован как desulfoferrodoxin / superoxide reductase. Хотя его сходство с исходным белком ниже, он всё равно выравнивается с основной областью SOR-белка и может быть использован для сравнения более консервативных участков.
Файл с выбранными последовательностями: sor_selected.fasta.
5. Множественное выравнивание
Множественное выравнивание выбранных последовательностей было выполнено в программе Jalview с использованием сервиса MAFFT. В итоговое выравнивание вошли все 7 выбранных белков.
Файл проекта Jalview: sor_alignment.jvp.
6. Анализ множественного выравнивания
Множественное выравнивание выбранных последовательностей было выполнено в программе Jalview с использованием алгоритма MAFFT. В выравнивание вошли 7 белков, включающих как близкие архейные гомологи, так и более удалённые бактериальные белки семейства superoxide reductase / desulfoferrodoxin.
В целом выравнивание получилось плотным и однородным: большинство последовательностей имеют сходную длину (около 115 аминокислот), и выравниваются практически по всей длине без длинных вставок и разрывов. Это указывает на высокую степень структурного сходства и наличие общего домена у всех выбранных белков.
Для близких гомологов (белки из родов Pyrococcus и Thermococcus) наблюдается очень высокая степень сходства: в выравнивании видно большое количество полностью консервативных позиций, где аминокислотные остатки совпадают у всех или почти всех последовательностей, что соответствует их высокой доле идентичности (до ~90%).
У более удалённых гомологов, таких как белки из Archaeoglobus fulgidus, Thermotoga maritima и Desulfovibrio desulfuricans, сходство ниже, однако они сохраняют основную выравниваемую область. В их последовательностях наблюдается больше замен аминокислот и небольшие вставки или удаления, но общая структура выравнивания остаётся сопоставимой с исходным белком.
В выравнивании отчётливо видны консервативные участки, которые, вероятно, соответствуют функционально важным областям белка. Особое значение имеют остатки, участвующие в связывании иона железа, так как superoxide reductase является металлсодержащим ферментом. Сохранение этих участков у большинства последовательностей указывает на сохранение каталитической функции у всех выбранных белков.
Также можно отметить, что консервативные позиции распределены неравномерно: некоторые участки последовательности сильно консервативны, в то время как другие более вариабельны. Это типично для ферментов, где активный центр и ключевые структурные элементы сохраняются, а периферические участки могут изменяться.
В процессе анализа выравнивания не было обнаружено последовательностей, которые явно не относятся к данному семейству. Все выбранные белки выравниваются по основной области SOR-домена, не имеют больших несовпадающих участков и не демонстрируют аномально низкого сходства. Поэтому дополнительные удаления последовательностей из выравнивания не проводились.
Таким образом, множественное выравнивание подтверждает, что выбранные последовательности являются гомологами исходного белка и принадлежат к одному функциональному семейству superoxide reductase / desulfoferrodoxin.
Поиск гомологов зрелого вирусного белка, вырезанного из полипротеина
1. Выбор исходного белка
В качестве исходной последовательности был выбран полипротеин вируса Dengue virus type 1 из базы UniProtKB/Swiss-Prot.
- UniProt accession: P17763
- UniProt ID: POLG_DEN1W
- Название белка: Genome polyprotein
- Организм: Dengue virus type 1, strain Nauru/West Pac/1974
- Длина полипротеина: 3392 аминокислоты
- Статус записи: Reviewed, Swiss-Prot
В разделе PTM/Processing в записи UniProt был найден зрелый белок RNA-directed RNA polymerase/Methyltransferase NS5. Он аннотирован как участок Chain с координатами:
2494–3392
Таким образом, для дальнейшего анализа был выбран зрелый белок NS5 длиной 899 аминокислот.
2. Вырезание зрелого белка NS5 из полипротеина
Для вырезания участка NS5 из полного полипротеина была использована программа
seqret.
Использованная команда:
seqret 'sw:P17763[2494:3392]' denv1_NS5.fasta
В результате был получен файл:
Файл содержит последовательность зрелого белка NS5 вируса Dengue virus type 1.
3. Поиск гомологов с помощью BLAST
Полученная последовательность NS5 была использована как запрос в Protein BLAST на сайте NCBI.
- Программа: blastp
- База данных: Swiss-Prot
- Фильтр по организмам: не использовался
- Длина запроса: 899 аминокислот
- RID: YX4YD7RZ014
В результатах BLAST были выбраны белки вирусов семейства Flaviviridae,
гомологичные исходному NS5. Хотя в описании многих находок указано
Genome polyprotein
, это нормально, так как зрелый белок NS5 является частью
вирусного полипротеина.
4. Выбранные гомологи
| № | Организм | Белок | Accession | Почему выбран |
|---|---|---|---|---|
| 1 | Dengue virus type 1 | NS5, исходный белок | P17763 | Исходная последовательность для поиска |
| 2 | Dengue virus type 2 | Genome polyprotein, участок NS5 | P07564.2 | Близкий гомолог NS5 другого серотипа Dengue virus |
| 3 | Dengue virus type 3 | Genome polyprotein, участок NS5 | Q9D3D5.1 | Близкий гомолог NS5 другого серотипа Dengue virus |
| 4 | Dengue virus type 4 | Genome polyprotein, участок NS5 | P09866.2 | Близкий гомолог NS5 другого серотипа Dengue virus |
| 5 | West Nile virus | Genome polyprotein, участок NS5 | Q9Q6P4.2 | Гомолог NS5 у другого флавивируса |
| 6 | Yellow fever virus | Genome polyprotein, участок NS5 | P03314.1 | Гомолог NS5 у другого флавивируса |
| 7 | Zika virus | Genome polyprotein, участок NS5 | Q32ZE1.1 | Гомолог NS5 у другого флавивируса |
- Выбранные последовательности гомологов (FASTA): sor_selected.fasta
5. Множественное выравнивание
Для выбранных последовательностей было построено множественное выравнивание в программе Jalview. В выравнивание были включены:
- исходный зрелый белок NS5 Dengue virus type 1;
- 6 найденных гомологичных последовательностей из результатов BLAST.
Всего в итоговом выравнивании получилось 7 последовательностей.
Выравнивание было построено с использованием сервиса MUSCLE в Jalview. После построения выравнивания были удалены участки последовательностей, которые выходили за пределы исходного зрелого белка NS5. Обрезка выполнялась по строке исходного белка DENV1_NS5: все столбцы левее первой аминокислоты исходной последовательности и правее последней аминокислоты были удалены. https://blast.ncbi.nlm.nih.gov/Blast.cgi
Итоговое выравнивание было сохранено как проект Jalview:
- Проект множественного выравнивания Jalview: sor_alignment.jvp
6. Обсуждение результата
В результате BLAST-поиска были найдены гомологи белка NS5 у нескольких представителей флавивирусов. Наиболее близкими оказались NS5-белки других серотипов Dengue virus, что ожидаемо, так как они принадлежат к тому же виду вирусов. Также были выбраны более удалённые, но всё ещё хорошо гомологичные последовательности из Zika virus, Yellow fever virus и West Nile virus.
Белок NS5 является консервативным неструктурным белком флавивирусов. Он содержит участки, связанные с метилтрансферазной активностью и РНК-зависимой РНК-полимеразной активностью. Поэтому при выравнивании наблюдается большое число совпадающих и сходных аминокислотных позиций.
3. Исследование зависимости E-value от объёма банка
В предыдущем варианте отчёта в этом упражнении использовался зрелый белок NS5 (длина 899 аминокислот). У него все гомологичные вирусные находки имели E-value, отображаемое в выдаче BLAST как 0.0 — это так называемый «машинный ноль», то есть число настолько малое, что программа округляет его до нуля. По одной паре нулевых значений корректно посчитать отношение по формуле Карлина–Альтшуля нельзя. Поэтому для этого упражнения был выбран другой, более короткий зрелый белок из того же полипротеина — Capsid protein C. Использование более короткого белка даёт умеренные значения E-value, и формулу Карлина–Альтшуля становится возможным проверить численно.
3.1. Выбор зрелого белка
В записи UniProt P17763 (POLG_DEN1W) в поле FT CHAIN с пояснением /note="Capsid protein C" указаны координаты 1–101 в полипротеине. Следовательно, длина зрелого белка Capsid protein C составляет 101 аминокислотный остаток.
| Параметр | Значение |
|---|---|
| Исходный полипротеин | POLG_DEN1W (P17763), Dengue virus type 1 |
| Зрелый белок (CHAIN) | Capsid protein C |
| Координаты в полипротеине | 1–101 |
| Длина зрелого белка | 101 аминокислотный остаток |
Последовательность Capsid protein C была вырезана из полипротеина средствами EMBOSS:
seqret 'sw:P17763[1:101]' denv1_capsidC.fasta
Файл с последовательностью: denv1_capsidC.fasta.
3.2. Два BLAST-поиска с одной и той же последовательностью
Для исследования зависимости E-value от объёма банка были выполнены два BLAST-поиска одного и того же запроса (denv1_capsidC.fasta) в банке UniProtKB/Swiss-Prot. Параметры поиска одинаковые во всём, кроме фильтра по организмам.
| Параметр | Поиск 1 (без фильтра) | Поиск 2 (с фильтром Viruses) |
|---|---|---|
| Программа | blastp | blastp |
| Банк | UniProtKB/Swiss-Prot | UniProtKB/Swiss-Prot |
| Фильтр по организмам | нет | Viruses (taxid:10239) |
| Запрос | denv1_capsidC.fasta | denv1_capsidC.fasta |
| Прочие параметры | по умолчанию | те же, что в Поиске 1 |
| Число находок в сохранённой выдаче | 44 | 44 |
| Размер банка, а.о. | n₁ = 185 539 472 | n₂ = 7 727 933 |
| Число последовательностей в банке | 486 626 | 16 568 |
Важно, что значения n₁ и n₂ брались не из файлов с выравниваниями, а из полных текстовых отчётов BLAST. В файлах с выравниваниями удобно смотреть список находок, accession, score и E-value, но статистический блок с размером базы данных находится в полном отчёте.р>
Текстовые выдачи BLAST:
Для каждого BLAST-поиска были сохранены две версии текстовой выдачи. Файлы blast_capsidC_no_filter.txt и blast_capsidC_viruses.txt использовались для выбора контрольной находки и сравнения её score и E-value. Полные текстовые отчёты blast_capsidC_no_filterall.txt и blast_capsidC_virusesall.txt использовались для поиска статистического блока BLAST, в котором указаны строки Number of letters in database и Number of sequences in database.
- blast_capsidC_no_filter.txt — текстовая выдача с выравниваниями для поиска без фильтра;
- blast_capsidC_viruses.txt — текстовая выдача с выравниваниями для поиска с фильтром Viruses (taxid:10239);
- blast_capsidC_no_filter_all.txt — полный текстовый отчёт BLAST для поиска без фильтра, использован для определения размера банка;
- blast_capsidC_viruses_all.txt — полный текстовый отчёт BLAST для поиска с фильтром Viruses, использован для определения размера вирусной части банка.
3.3. Выбор контрольной находки
Для оценки доли вирусных белков в Swiss-Prot нужно найти одну и ту же последовательность в обеих выдачах и сравнить её E-value. Для этого не подходят находки с E-value = 0.0, так как это «машинный ноль». Поэтому была выбрана находка с ненулевым E-value, у которой score в обеих выдачах одинаков. Это означает, что сравнивается одно и то же выравнивание, а изменение E-value связано с изменением размера банка.
В качестве контрольной находки была выбрана последовательность Q9Q6P4.2 — Genome polyprotein вируса West Nile virus strain NY-99.
| Параметр | Поиск без фильтра | Поиск с фильтром Viruses |
|---|---|---|
| Accession | Q9Q6P4.2 | Q9Q6P4.2 |
| Белок | Genome polyprotein | Genome polyprotein |
| Организм | West Nile virus strain NY-99 | West Nile virus strain NY-99 |
| Bits-score (Max Score) | 75.9 | 75.9 |
| E-value | E₁ = 2e-16 | E₂ = 1e-17 |
3.4. Применение формулы Карлина–Альтшуля
Ожидаемое число случайных совпадений с данным или лучшим score даётся формулой Карлина–Альтшуля:
E = K · m · n · e−λ·S
где S — score выравнивания, m — длина запроса, n — размер банка, K и λ — константы матрицы весов. В двух поисках использовалась одна и та же последовательность-запрос, одна и та же матрица BLOSUM62 и одна и та же контрольная находка с одинаковым score. Поэтому в формуле меняется только величина n — размер банка.
Для одной и той же находки:
E₁ / E₂ = n₁ / n₂
Следовательно, доля вирусных белков в Swiss-Prot может быть оценена как:
φ = n₂ / n₁ = E₂ / E₁
3.5. Численный результат
Подставим значения E-value контрольной находки:
φ = E₂ / E₁ = 1e-17 / 2e-16 = 0.05
То есть по E-value доля вирусных белков в Swiss-Prot составляет около 5%.
Для контроля сравним эту оценку с прямым отношением размеров банков, которое BLAST показывает в шапке текстовой выдачи:
n₂ / n₁ = 7 727 933 / 185 539 472 ≈ 0.0417
| Источник оценки | Значение φ | В процентах |
|---|---|---|
| По формуле Карлина–Альтшуля через E-value одной находки | 0.05 | 5.0% |
| По прямому размеру банка: n₂ / n₁ | 0.0417 | 4.17% |
Оценки хорошо согласуются между собой: 5.0% и 4.17% отличаются незначительно. Небольшое расхождение связано с округлением E-value в BLAST-выдаче: значения E-value показаны не полностью, а в виде 2e-16 и 1e-17. Поэтому отношение, рассчитанное через E-value, является приближённым.
3.6. Вывод
Сравнение E-value одной и той же находки в двух BLAST-поисках, различающихся размером базы данных, подтверждает формулу Карлина–Альтшуля: при фиксированных m, S, K и λ величина E прямо пропорциональна n. Для контрольной находки Q9Q6P4.2 (West Nile virus strain NY-99) score в обоих поисках одинаков и равен 75.9, но E-value уменьшается с 2e-16 до 1e-17 при ограничении базы до вирусов. По E-value доля вирусных белков в Swiss-Prot составляет около 5.0%, а по прямому отношению размеров банков — около 4.17%. Эти значения близки, следовательно, расчёт выполнен корректно. Использование зрелого Capsid protein C вместо NS5 позволило избежать «машинного нуля» и провести численную проверку зависимости E-value от объёма банка.