1. ПОИСК ГОМОЛОГОВ БЕЛКА GroEL В SWISS-PROT
В качестве исходного белка был использован белок UniProt AC: B2A5V3. Белок: Chaperonin GroEL. Альтернативные названия: 60 kDa chaperonin, Chaperonin-60, Cpn60. Организм: Natranaerobius thermophilus JW/NM-WN-LF. Длина: 548 аминокислотных остатков.
Поиск гомологов проводился на сайте NCBI Protein BLAST программой BLASTP. В качестве запроса была использована последовательность B2A5V3.1. Поиск проводился против базы данных swissprot, то есть против базы UniProtKB/Swiss-Prot. В текстовой выдаче BLAST указан RID запроса YTMX750H016.
Использованные параметры BLAST
- Program: BLASTP
- Query: B2A5V3.1, Chaperonin GroEL
- Database: swissprot
- Organism filter: не использовался
- Algorithm: blastp
- Expect threshold: стандартный
- Matrix: BLOSUM62
- Gap costs: стандартные
- Compositional adjustment: стандартный
- Low complexity filter: стандартный
Текстовая выдача BLAST была сохранена в файл текстовая выдача BLAST для B2A5V3.
Результаты поиска
В результате поиска были найдены многочисленные значимые совпадения с белками, аннотированными как Chaperonin GroEL, 60 kDa chaperonin или Chaperonin-60. Лучшая находка — исходная последовательность B2A5V3.1, для которой покрытие запроса составляет 100%, идентичность — 100%, а E-value = 0.0. Остальные выбранные находки также имеют E-value = 0.0, высокое покрытие запроса и идентичность около 70–71%, что указывает на достоверную гомологию.
Для множественного выравнивания были выбраны следующие последовательности:
| № | Последовательность в Jalview | Accession | Белок | Организм | Длина |
|---|---|---|---|---|---|
| 1 | B2A5V3.1/1-548 | B2A5V3.1 | Chaperonin GroEL | Natranaerobius thermophilus JW/NM-WN-LF | 548 |
| 2 | C5D4F4.1/1-539 | C5D4F4.1 | Chaperonin GroEL | Geobacillus sp. WCH70 | 539 |
| 3 | B7GFR6.1/1-538 | B7GFR6.1 | Chaperonin GroEL | Anoxybacillus flavithermus WK1 | 538 |
| 4 | Q07201.1/1-539 | Q07201.1 | Chaperonin GroEL | Geobacillus stearothermophilus | 539 |
| 5 | O50305.2/1-544 | O50305.2 | Chaperonin GroEL | Halalkalibacterium halodurans C-125 | 544 |
| 6 | Q8VV84.1/1-539 | Q8VV84.1 | Chaperonin GroEL | Parageobacillus thermoglucosidasius | 539 |
| 7 | A4IJV3.1/1-540 | A4IJV3.1 | Chaperonin GroEL | Geobacillus thermodenitrificans NG80-2 | 540 |
Эти последовательности были скачаны из BLAST-выдачи в FASTA-формате и использованы для построения множественного выравнивания в Jalview. Итоговое выравнивание было сохранено как проект Jalview: итоговое множественное выравнивание GroEL.
Обоснование гомологичности
Все выбранные белки являются гомологами исходного белка B2A5V3.1, так как они аннотированы как Chaperonin GroEL / 60 kDa chaperonin / Chaperonin-60 и имеют близкую длину: от 538 до 548 аминокислотных остатков. При BLAST-поиске они выравниваются с исходным белком почти по всей длине: покрытие запроса составляет примерно 96–100%. Для всех выбранных находок E-value = 0.0, а идентичность с исходной последовательностью составляет около 70–100%. Такое сочетание высокого покрытия, высокой идентичности и крайне малого E-value показывает, что сходство не является случайным и отражает общее эволюционное происхождение белков.
Явно негомологичные белки среди выбранных последовательностей обнаружены не были. Поэтому после редактирования в итоговом выравнивании были оставлены все семь выбранных последовательностей.
2. ПОИСК ГОМОЛОГОВ ЗРЕЛОГО ВИРУСНОГО БЕЛКА, ВЫРЕЗАННОГО ИЗ ПОЛИПРОТЕИНА
Для второго задания был выбран вирусный полипротеин из Swiss-Prot: UniProt ID: POLN_MIDDV, UniProt AC: P03318. Белок: Polyprotein nsP1234. Организм: Middelburg virus. Запись P03318 соответствует полипротеину Polyprotein nsP1234 вируса Middelburg virus.
В аннотации полипротеина был выбран зрелый белок RNA-directed RNA polymerase nsP4. Координаты в полипротеине: 386–995. Длина зрелого белка: 610 аминокислотных остатков.
Получение последовательности зрелого белка
Для вырезания зрелого белка из полипротеина использовалась программа EMBOSS seqret:
seqret 'sw:p03318[386:995]' nsp4_Middelburg.fasta
После этого заголовок FASTA-файла был отредактирован вручную. Итоговый заголовок:
>MIDDV_nsp4_RdRp P03318:386-995 RNA-directed RNA polymerase nsP4
FASTA-файл зрелого белка: nsp4_Middelburg.fasta.
BLAST зрелого белка nsP4
Полученная последовательность зрелого белка MIDDV_nsp4_RdRp была использована как запрос для NCBI Protein BLAST.
- Program: BLASTP
- Query: MIDDV_nsp4_RdRp P03318:386-995 RNA-directed RNA polymerase nsP4
- Database: swissprot
- Organism filter: не использовался
- Algorithm: blastp
- Expect threshold: стандартный
- Matrix: BLOSUM62
- Gap costs: стандартные
- Compositional adjustment: стандартный
- Low complexity filter: стандартный
Текстовая выдача была сохранена в файл текстовая выдача BLAST для зрелого белка nsP4 без фильтра по организмам.
Результаты поиска
Лучшей находкой оказался исходный полипротеин P03318.2 из Middelburg virus: покрытие запроса 100%, идентичность 100%, E-value = 0.0. Далее в выдаче идут вирусные полипротеины альфавирусов, содержащие зрелый белок RNA-directed RNA polymerase nsP4. Среди лучших находок: P08411.2, P13888.2, P13887.2, Q8QZ73.3, O90370.1, Q9JGL0.3 и другие. Большинство лучших совпадений имеют покрытие запроса 100%, идентичность около 75–77% и E-value = 0.0.
Для множественного выравнивания были выбраны следующие последовательности:
| № | Accession | Белок | Организм | Query cover | Identity | E-value |
|---|---|---|---|---|---|---|
| 1 | P03318.2 | Polyprotein nsP1234, содержит nsP4 | Middelburg virus | 100% | 100.00% | 0.0 |
| 2 | P08411.2 | Polyprotein P1234, содержит nsP4 | Semliki Forest virus | 100% | 76.62% | 0.0 |
| 3 | P13888.2 | Polyprotein nsP1234, содержит nsP4 | Ross river virus strain T48 | 100% | 77.00% | 0.0 |
| 4 | P13887.2 | Polyprotein P1234, содержит nsP4 | Ross river virus strain NB5092 | 100% | 76.27% | 0.0 |
| 5 | Q8QZ73.3 | Polyprotein P1234, содержит nsP4 | Mayaro virus | 100% | 76.10% | 0.0 |
| 6 | O90370.1 | Polyprotein P1234, содержит nsP4 | Igbo Ora virus | 100% | 76.67% | 0.0 |
| 7 | Q9JGL0.3 | Polyprotein P1234, содержит nsP4 | Sagiyama virus | 100% | 75.65% | 0.0 |
Последовательности были скачаны в FASTA-формате и использованы для построения множественного выравнивания в Jalview.
Так как BLAST-находки представлены полипротеинами, а исходный запрос — только зрелым белком nsP4, при редактировании выравнивания были удалены все буквы находок, находящиеся левее первой и правее последней буквы, выровненной с исходной последовательностью MIDDV_nsp4_RdRp. В итоговом выравнивании были оставлены только участки, соответствующие зрелому белку RNA-directed RNA polymerase nsP4.
Итоговое выравнивание было сохранено как проект Jalview: итоговое множественное выравнивание зрелого белка nsP4.
Обоснование гомологичности
Оставленные белки являются гомологами зрелого белка RNA-directed RNA polymerase nsP4, поскольку все они входят в состав вирусных полипротеинов nsP1234 / P1234 и содержат участок, аннотированный как RNA-directed RNA polymerase nsP4. Лучшие находки выравниваются с исходным зрелым белком по всей длине, имеют покрытие 100%, идентичность около 75–77% и E-value = 0.0. Это указывает на достоверную гомологию.
Слабые дальние совпадения с низким покрытием или низкой идентичностью не использовались для итогового множественного выравнивания, так как целью было сравнение ближайших гомологов зрелого белка nsP4.
3. ИССЛЕДОВАНИЕ ЗАВИСИМОСТИ E-VALUE ОТ ОБЪЁМА БАНКА
Для исследования зависимости E-value от объёма банка был повторён BLAST-поиск зрелого белка MIDDV_nsp4_RdRp, но теперь был применён фильтр по организмам (Viruses).
Текстовая выдача BLAST с фильтром Viruses была сохранена в файл текстовая выдача BLAST для зрелого белка nsP4 с фильтром Viruses.
Сравнение списков находок
Список лучших находок при ограничении поиска вирусами практически не изменился. В обеих выдачах верхние позиции занимают вирусные полипротеины nsP1234 / P1234, содержащие зрелый белок RNA-directed RNA polymerase nsP4. Среди них: P03318.2, P08411.2, P13888.2, P13887.2, Q8QZ73.3, O90370.1, Q9JGL0.3 и другие.
Однако при поиске без фильтра по организмам в конце выдачи появились слабые невирусные совпадения, например белки Haemophilus с большими E-value. При использовании фильтра Viruses такие невирусные находки исчезли. Следовательно, для достоверных вирусных гомологов список почти не изменился, но слабые случайные невирусные совпадения были удалены фильтром.
Оценка доли вирусных белков в Swiss-Prot
Для оценки была выбрана находка, у которой E-value не равно машинному нулю:
- Accession: Q88920.1
- Белок: Replicase large subunit / RNA-directed RNA polymerase
- Организм: Turnip vein-clearing virus
Для этой находки значения E-value различались в двух поисках:
| Условие поиска | E-value | Score |
|---|---|---|
| Без фильтра по организмам | 1e-11 | 71.6 bits |
| С фильтром Viruses | 6e-13 | 71.6 bits |
В обоих случаях это одна и та же находка Q88920.1, с одинаковым score 71.6 bits, но с разными E-value из-за различного эффективного объёма базы данных. В поиске без фильтра E-value равно 1e-11, а в поиске с фильтром Viruses — 6e-13.
E-value приблизительно пропорционально объёму базы данных. Поэтому долю вирусных белков в Swiss-Prot можно оценить как отношение E-value при поиске по вирусам к E-value при поиске по всей базе:
Доля вирусных белков ≈ E_virus / E_all
E-value = 1 × e-11
E-all = 6 × e-13
E_virus / E_all = 6e-13 / 1e-11 = 0.06 = 6%
Вывод по заданию 3
При ограничении поиска таксоном Viruses список лучших достоверных находок почти не изменился, потому что ближайшие гомологи зрелого белка nsP4 являются вирусными белками. Однако из выдачи исчезли слабые невирусные совпадения.
На примере находки Q88920.1 было показано, что E-value уменьшилось с 1e-11 до 6e-13 при уменьшении объёма банка. Отношение этих значений даёт оценку доли вирусных белков в Swiss-Prot:
6 × e-13 / 1 × e-11 = 0.06
Таким образом, по данным этого сравнения доля вирусных белков в Swiss-Prot составляет примерно 6%.