← назад ко II семестру

Практикум № 07 · II семестр

Поиск гомологов белков с помощью BLAST белков

Поиск гомологов CTP synthase в Swiss-Prot, анализ зрелого вирусного белка VP70, вырезанного из полипротеина, и оценка зависимости E-value от объёма банка.

○ 01

Поиск гомологов белка CTP synthase в Swiss-Prot

В качестве исходного белка был использован белок UniProt AC: A0A5B8LYG0. Белок: CTP synthase. Альтернативные названия: Cytidine 5'-triphosphate synthase, Cytidine triphosphate synthetase. Организм: Humibacter ginsenosidimutans. Длина: 588 аминокислотных остатков.

Поиск гомологов проводился на сайте NCBI Protein BLAST программой BLASTP. В качестве запроса была использована последовательность B2A5V3.1. Поиск проводился против базы данных swissprot, то есть против базы UniProtKB/Swiss-Prot. В текстовой выдаче BLAST указан RID запроса 0R353HE5014.

Использованные параметры BLAST:

Program: BLASTP

Query: A0A5B8LYG0.fasta

Database: swissprot

Organism filter: не использовался

Algorithm: blastp

Expect threshold: 10

Matrix: BLOSUM62

Gap costs: стандартные

Compositional adjustment: стандартный

Low complexity filter: стандартный

Текстовая выдача BLAST была сохранена в файл текстовая выдача BLAST для A0A5B8LYG0.

Результаты поиска

В результате поиска были найдены многочисленные значимые совпадения с белками, аннотированными как CTP synthase, Cytidine 5'-triphosphate или Cytidine triphosphate synthetase. Лучшая находка — CTP synthase бактерии Leifsonia xyli subsp. xyli str. CTCB07, для которой покрытие запроса составляет 94%, идентичность — 85.71%, а E-value = 0.0. Остальные выбранные находки также имеют E-value = 0.0, высокое покрытие запроса и идентичность около 69–72%, что указывает на достоверную гомологию.

Для множественного выравнивания были выбраны следующие последовательности:

Табл. 1 · Множественное выравнивание для гомологичных белков CTP synthase
Последовательность в Jalview Accession Белок Организм Длина
Q6AGG5.2:7-566Q6AGG5.2CTP synthaseLeifsonia xyli subsp. xyli str. CTCB07566
A1SJK4.1:7-553A1SJK4.1CTP synthaseNocardioides sp. JS614569
A4FKA9.1:6-553A4FKA9.1CTP synthaseSaccharopolyspora erythraea NRRL 2338568
Q47QN2.2:6-547Q47QN2.2CTP synthaseThermobifida fusca YX552
Q8G5X7.1:8-550Q8G5X7.1CTP synthaseBifidobacterium longum NCC2705553
Q2J878.1:7-547Q2J878.1CTP synthaseFrankia casuarinae608
Q6A7X4.1:5-537Q6A7X4.1CTP synthaseCutibacterium acnes KPA171202562

Эти последовательности были скачаны из BLAST-выдачи в FASTA-формате и использованы для построения множественного выравнивания в Jalview. Итоговое выравнивание было сохранено как проект Jalview:итоговое множественное выравнивание CTP synthase .

Обоснование гомологичности

Все выбранные белки являются гомологами исходного белка A0A5B8LYG0, так как они аннотированы как CTP synthase / Cytidine 5'-triphosphate / Cytidine triphosphate synthetase и имеют близкую длину: от 552 до 608 аминокислотных остатков. При BLAST-поиске они выравниваются с исходным белком почти по всей длине: покрытие запроса составляет примерно 91–94%. Для всех выбранных находок E-value = 0.0, а идентичность с исходной последовательностью составляет около 69–85%. Такое сочетание высокого покрытия, высокой идентичности и крайне малого E-value показывает, что сходство не является случайным и отражает общее эволюционное происхождение белков.

Явно негомологичные белки среди выбранных последовательностей обнаружены не были. Поэтому после редактирования в итоговом выравнивании были оставлены все семь выбранных последовательностей.

○ 02

Поиск в Swiss-Prot гомологов зрелого вирусного белка, вырезанного из полипротеина

Для второго задания был выбран вирусный полипротеин из Swiss-Prot: UniProt ID: CAPSD_HASV8, UniProt AC: Q9IFX1. Белок: Capsid polyprotein VP90. Организм: Human astrovirus-8 (HAstV-8).

В аннотации полипротеина был выбран зрелый белок Capsid polyprotein VP70. Координаты в полипротеине: 1–657. Длина зрелого белка: 657 аминокислотных остатков.

Получение последовательности зрелого белка

Для вырезания зрелого белка из полипротеина использовалась программа EMBOSS seqret:

seqret -sequence Q9IFX1.fasta[1:657] -outseq out.fasta

После этого заголовок FASTA-файла был отредактирован вручную. Итоговый заголовок:

>CAPSD_HASV8 Q9IFX1:1-657 Capsid polyprotein VP70

FASTA-файл зрелого белка: vp70.fasta.

BLAST зрелого белка VP70

Полученная последовательность зрелого белка Capsid polyprotein VP70 была использована как запрос для NCBI Protein BLAST.

Program: BLASTP

Query: vp70.fasta

Database: swissprot

Organism filter: не использовался

Algorithm: blastp

Expect threshold: стандартный

Matrix: BLOSUM62

Gap costs: стандартные

Compositional adjustment: стандартный

Low complexity filter: стандартный

Текстовая выдача была сохранена в файл текстовая выдача BLAST для зрелого белка vp70 без фильтра по организмам.

Результаты поиска:

Лучшей находкой оказался исходный полипротеин Q9IFX1.2 из Human astrovirus 8: покрытие запроса 100%, идентичность 100%, E-value = 0.0. Далее в выдаче идут вирусные полипротеины, содержащие зрелый белок Capsid polyprotein VP70. Среди лучших находок: Q3ZN05.1, Q67815.1, Q82446.1, O12792.1, Q9WFZ0.1, Q4TWH7.1 и другие. Большинство лучших совпадений имеют покрытие запроса 100%, идентичность около 73–79% и E-value = 0.0.

Для множественного выравнивания были выбраны следующие последовательности:

Табл. 2 · Множественное выравнивание для гомологичных белков Capsid polyprotein VP90
Accession Белок Организм Query cover Identity E-value
Q9IFX1.2Capsid polyprotein VP90, содержит VP70Human astrovirus 8100%100.00%0.0
Q3ZN05.1Capsid polyprotein VP90, содержит VP70Human astrovirus 499%79.66%0.0
Q67815.1Capsid polyprotein VP90, содержит VP70Human astrovirus 6100%76.41%0.0
Q82446.1Capsid polyprotein VP90, содержит VP70Human astrovirus 299%74.39%0.0
O12792.1Capsid polyprotein VP90, содержит VP70Human astrovirus 199%74.27%0.0
Q9WFZ0.1Capsid polyprotein VP90, содержит VP70Human astrovirus 3100%74.13%0.0
Q4TWH7.1Capsid polyprotein VP90, содержит VP70Human astrovirus 599%73.69%0.0

Последовательности были скачаны в FASTA-формате и использованы для построения множественного выравнивания в Jalview.

Итоговое выравнивание было сохранено как проект Jalview: итоговое множественное выравнивание зрелого белка vp70.

Обоснование гомологичности

Оставленные белки являются гомологами зрелого белка Capsid polyprotein VP70, поскольку все они входят в состав вирусных полипротеинов VP90 и содержат участок, аннотированный как Capsid polyprotein VP70. Лучшие находки выравниваются с исходным зрелым белком по всей длине, имеют покрытие 100%, идентичность около 73–79% и E-value = 0.0. Это указывает на достоверную гомологию.

Слабые дальние совпадения с низким покрытием или низкой идентичностью не использовались для итогового множественного выравнивания, так как целью было сравнение ближайших гомологов зрелого белка VP70.

○ 03

Исследование зависимости E-VALUE от объема банка

Для исследования зависимости E-value от объёма банка был повторён BLAST-поиск зрелого белка Capsid polyprotein VP90, но теперь был применён фильтр по организмам (Viruses).

Текстовая выдача BLAST с фильтром Viruses была сохранена в файл текстовая выдача BLAST для зрелого белка VP70 с фильтром Viruses.

Сравнение списков находок

Список лучших находок при ограничении поиска вирусами практически не изменился. В обеих выдачах верхние позиции занимают вирусные полипротеины Capsid polyprotein VP90, содержащие зрелый белок VP70 . Среди них: Q3ZN05.1, Q67815.1, Q82446.1, O12792.1, Q9WFZ0.1, Q4TWH7.1 и другие.

При поиске с фильтром были предложены на роль гомологов те же белки, что и без фильтраю

Оценка доли вирусных белков в Swiss-Prot

Для оценки была выбрана находка, у которой E-value не равно машинному нулю:

Accession: Q9JG99.1

Белок: Capsid polyprotein VP90

Организм: Mamastrovirus 3

Для этой находки значения E-value различались в двух поисках:

Табл. 3 · E-value при разных поисковых запросах
Accession Query cover Score(bits)
Без фильтра по организмам8e-168502
С фильтром Viruses3e-169502

В обоих случаях это одна и та же находка Q9JG99.1, с одинаковым score 502 bits, но с разными E-value из-за различного эффективного объёма базы данных.

E-value приблизительно пропорционально объёму базы данных. Поэтому долю вирусных белков в Swiss-Prot можно оценить как отношение E-value при поиске по вирусам к E-value при поиске по всей базе:

Доля вирусных белков ≈ E_virus / E_all

E-value = 8 × e-169

E-all = 3 × e-169

E_virus / E_all = 3e-169 / 8e-168 = 0.0375 = 3.75%

Вывод по заданию 3

При ограничении поиска таксоном Viruses список лучших достоверных находок не изменился, потому что ближайшие гомологи зрелого белка VP70 являются вирусными белками.

На примере находки Q9JG99.1 было показано, что E-value уменьшилось с 8e-168 до 3e-169 при уменьшении объёма банка. Отношение этих значений даёт оценку доли вирусных белков в Swiss-Prot: 3e-169 / 8e-168 = 0.0375

Таким образом, по данным этого сравнения доля вирусных белков в Swiss-Prot составляет примерно 3.75%.