Поиск гомологов белков с помощью BLAST белков
Поиск гомологов CTP synthase в Swiss-Prot, анализ зрелого вирусного белка VP70, вырезанного из полипротеина, и оценка зависимости E-value от объёма банка.
Поиск гомологов белка CTP synthase в Swiss-Prot
В качестве исходного белка был использован белок UniProt AC: A0A5B8LYG0. Белок: CTP synthase. Альтернативные названия: Cytidine 5'-triphosphate synthase, Cytidine triphosphate synthetase. Организм: Humibacter ginsenosidimutans. Длина: 588 аминокислотных остатков.
Поиск гомологов проводился на сайте NCBI Protein BLAST программой BLASTP. В качестве запроса была использована последовательность B2A5V3.1. Поиск проводился против базы данных swissprot, то есть против базы UniProtKB/Swiss-Prot. В текстовой выдаче BLAST указан RID запроса 0R353HE5014.
Использованные параметры BLAST:
○ Program: BLASTP
○ Query: A0A5B8LYG0.fasta
○ Database: swissprot
○ Organism filter: не использовался
○ Algorithm: blastp
○ Expect threshold: 10
○ Matrix: BLOSUM62
○ Gap costs: стандартные
○ Compositional adjustment: стандартный
○ Low complexity filter: стандартный
Текстовая выдача BLAST была сохранена в файл текстовая выдача BLAST для A0A5B8LYG0.
Результаты поиска
В результате поиска были найдены многочисленные значимые совпадения с белками, аннотированными как CTP synthase, Cytidine 5'-triphosphate или Cytidine triphosphate synthetase. Лучшая находка — CTP synthase бактерии Leifsonia xyli subsp. xyli str. CTCB07, для которой покрытие запроса составляет 94%, идентичность — 85.71%, а E-value = 0.0. Остальные выбранные находки также имеют E-value = 0.0, высокое покрытие запроса и идентичность около 69–72%, что указывает на достоверную гомологию.
Для множественного выравнивания были выбраны следующие последовательности:
| Последовательность в Jalview | Accession | Белок | Организм | Длина |
|---|---|---|---|---|
| Q6AGG5.2:7-566 | Q6AGG5.2 | CTP synthase | Leifsonia xyli subsp. xyli str. CTCB07 | 566 |
| A1SJK4.1:7-553 | A1SJK4.1 | CTP synthase | Nocardioides sp. JS614 | 569 |
| A4FKA9.1:6-553 | A4FKA9.1 | CTP synthase | Saccharopolyspora erythraea NRRL 2338 | 568 |
| Q47QN2.2:6-547 | Q47QN2.2 | CTP synthase | Thermobifida fusca YX | 552 |
| Q8G5X7.1:8-550 | Q8G5X7.1 | CTP synthase | Bifidobacterium longum NCC2705 | 553 |
| Q2J878.1:7-547 | Q2J878.1 | CTP synthase | Frankia casuarinae | 608 |
| Q6A7X4.1:5-537 | Q6A7X4.1 | CTP synthase | Cutibacterium acnes KPA171202 | 562 |
Эти последовательности были скачаны из BLAST-выдачи в FASTA-формате и использованы для построения множественного выравнивания в Jalview. Итоговое выравнивание было сохранено как проект Jalview:итоговое множественное выравнивание CTP synthase .
Обоснование гомологичности
Все выбранные белки являются гомологами исходного белка A0A5B8LYG0, так как они аннотированы как CTP synthase / Cytidine 5'-triphosphate / Cytidine triphosphate synthetase и имеют близкую длину: от 552 до 608 аминокислотных остатков. При BLAST-поиске они выравниваются с исходным белком почти по всей длине: покрытие запроса составляет примерно 91–94%. Для всех выбранных находок E-value = 0.0, а идентичность с исходной последовательностью составляет около 69–85%. Такое сочетание высокого покрытия, высокой идентичности и крайне малого E-value показывает, что сходство не является случайным и отражает общее эволюционное происхождение белков.
Явно негомологичные белки среди выбранных последовательностей обнаружены не были. Поэтому после редактирования в итоговом выравнивании были оставлены все семь выбранных последовательностей.
Поиск в Swiss-Prot гомологов зрелого вирусного белка, вырезанного из полипротеина
Для второго задания был выбран вирусный полипротеин из Swiss-Prot: UniProt ID: CAPSD_HASV8, UniProt AC: Q9IFX1. Белок: Capsid polyprotein VP90. Организм: Human astrovirus-8 (HAstV-8).
В аннотации полипротеина был выбран зрелый белок Capsid polyprotein VP70. Координаты в полипротеине: 1–657. Длина зрелого белка: 657 аминокислотных остатков.
Получение последовательности зрелого белка
Для вырезания зрелого белка из полипротеина использовалась программа EMBOSS seqret:
seqret -sequence Q9IFX1.fasta[1:657] -outseq out.fasta
После этого заголовок FASTA-файла был отредактирован вручную. Итоговый заголовок:
>CAPSD_HASV8 Q9IFX1:1-657 Capsid polyprotein VP70
FASTA-файл зрелого белка: vp70.fasta.
BLAST зрелого белка VP70
Полученная последовательность зрелого белка Capsid polyprotein VP70 была использована как запрос для NCBI Protein BLAST.
○ Program: BLASTP
○ Query: vp70.fasta
○ Database: swissprot
○ Organism filter: не использовался
○ Algorithm: blastp
○ Expect threshold: стандартный
○ Matrix: BLOSUM62
○ Gap costs: стандартные
○ Compositional adjustment: стандартный
○ Low complexity filter: стандартный
Текстовая выдача была сохранена в файл текстовая выдача BLAST для зрелого белка vp70 без фильтра по организмам.
Результаты поиска:
Лучшей находкой оказался исходный полипротеин Q9IFX1.2 из Human astrovirus 8: покрытие запроса 100%, идентичность 100%, E-value = 0.0. Далее в выдаче идут вирусные полипротеины, содержащие зрелый белок Capsid polyprotein VP70. Среди лучших находок: Q3ZN05.1, Q67815.1, Q82446.1, O12792.1, Q9WFZ0.1, Q4TWH7.1 и другие. Большинство лучших совпадений имеют покрытие запроса 100%, идентичность около 73–79% и E-value = 0.0.
Для множественного выравнивания были выбраны следующие последовательности:
| Accession | Белок | Организм | Query cover | Identity | E-value |
|---|---|---|---|---|---|
| Q9IFX1.2 | Capsid polyprotein VP90, содержит VP70 | Human astrovirus 8 | 100% | 100.00% | 0.0 |
| Q3ZN05.1 | Capsid polyprotein VP90, содержит VP70 | Human astrovirus 4 | 99% | 79.66% | 0.0 |
| Q67815.1 | Capsid polyprotein VP90, содержит VP70 | Human astrovirus 6 | 100% | 76.41% | 0.0 |
| Q82446.1 | Capsid polyprotein VP90, содержит VP70 | Human astrovirus 2 | 99% | 74.39% | 0.0 |
| O12792.1 | Capsid polyprotein VP90, содержит VP70 | Human astrovirus 1 | 99% | 74.27% | 0.0 |
| Q9WFZ0.1 | Capsid polyprotein VP90, содержит VP70 | Human astrovirus 3 | 100% | 74.13% | 0.0 |
| Q4TWH7.1 | Capsid polyprotein VP90, содержит VP70 | Human astrovirus 5 | 99% | 73.69% | 0.0 |
Последовательности были скачаны в FASTA-формате и использованы для построения множественного выравнивания в Jalview.
Итоговое выравнивание было сохранено как проект Jalview: итоговое множественное выравнивание зрелого белка vp70.
Обоснование гомологичности
Оставленные белки являются гомологами зрелого белка Capsid polyprotein VP70, поскольку все они входят в состав вирусных полипротеинов VP90 и содержат участок, аннотированный как Capsid polyprotein VP70. Лучшие находки выравниваются с исходным зрелым белком по всей длине, имеют покрытие 100%, идентичность около 73–79% и E-value = 0.0. Это указывает на достоверную гомологию.
Слабые дальние совпадения с низким покрытием или низкой идентичностью не использовались для итогового множественного выравнивания, так как целью было сравнение ближайших гомологов зрелого белка VP70.
Исследование зависимости E-VALUE от объема банка
Для исследования зависимости E-value от объёма банка был повторён BLAST-поиск зрелого белка Capsid polyprotein VP90, но теперь был применён фильтр по организмам (Viruses).
Текстовая выдача BLAST с фильтром Viruses была сохранена в файл текстовая выдача BLAST для зрелого белка VP70 с фильтром Viruses.
Сравнение списков находок
Список лучших находок при ограничении поиска вирусами практически не изменился. В обеих выдачах верхние позиции занимают вирусные полипротеины Capsid polyprotein VP90, содержащие зрелый белок VP70 . Среди них: Q3ZN05.1, Q67815.1, Q82446.1, O12792.1, Q9WFZ0.1, Q4TWH7.1 и другие.
При поиске с фильтром были предложены на роль гомологов те же белки, что и без фильтраю
Оценка доли вирусных белков в Swiss-Prot
Для оценки была выбрана находка, у которой E-value не равно машинному нулю:
○ Accession: Q9JG99.1
○ Белок: Capsid polyprotein VP90
○ Организм: Mamastrovirus 3
Для этой находки значения E-value различались в двух поисках:
| Accession | Query cover | Score(bits) |
|---|---|---|
| Без фильтра по организмам | 8e-168 | 502 |
| С фильтром Viruses | 3e-169 | 502 |
В обоих случаях это одна и та же находка Q9JG99.1, с одинаковым score 502 bits, но с разными E-value из-за различного эффективного объёма базы данных.
E-value приблизительно пропорционально объёму базы данных. Поэтому долю вирусных белков в Swiss-Prot можно оценить как отношение E-value при поиске по вирусам к E-value при поиске по всей базе:
Доля вирусных белков ≈ E_virus / E_all
E-value = 8 × e-169
E-all = 3 × e-169
E_virus / E_all = 3e-169 / 8e-168 = 0.0375 = 3.75%
Вывод по заданию 3
При ограничении поиска таксоном Viruses список лучших достоверных находок не изменился, потому что ближайшие гомологи зрелого белка VP70 являются вирусными белками.
На примере находки Q9JG99.1 было показано, что E-value уменьшилось с 8e-168 до 3e-169 при уменьшении объёма банка. Отношение этих значений даёт оценку доли вирусных белков в Swiss-Prot: 3e-169 / 8e-168 = 0.0375
Таким образом, по данным этого сравнения доля вирусных белков в Swiss-Prot составляет примерно 3.75%.