GRAND FBB

LEVSHIN VADIM

SEASON: 2025/26 LAPS: 2 STATUS: ACTIVE

Поиск гомологов белков с помощью BLAST

Поиск гомологов GroEL в Swiss-Prot, анализ зрелого вирусного белка nsP4, вырезанного из полипротеина, и оценка зависимости E-value от объёма банка.

Поиск гомологов белков с помощью BLAST
Автор: Левшин Вадим Игоревич
Факультет биоинженерии и биоинформатики, Московский Государственный Университет имени М.В.Ломоносова
Контактные данные: Dima.Tumanovs@yandex.ru
NCBI Protein BLAST BLASTP Swiss-Prot GroEL nsP4 homology search

1. ПОИСК ГОМОЛОГОВ БЕЛКА GroEL В SWISS-PROT

В качестве исходного белка был использован белок UniProt AC: B2A5V3. Белок: Chaperonin GroEL. Альтернативные названия: 60 kDa chaperonin, Chaperonin-60, Cpn60. Организм: Natranaerobius thermophilus JW/NM-WN-LF. Длина: 548 аминокислотных остатков.

Поиск гомологов проводился на сайте NCBI Protein BLAST программой BLASTP. В качестве запроса была использована последовательность B2A5V3.1. Поиск проводился против базы данных swissprot, то есть против базы UniProtKB/Swiss-Prot. В текстовой выдаче BLAST указан RID запроса YTMX750H016.

Использованные параметры BLAST

  • Program: BLASTP
  • Query: B2A5V3.1, Chaperonin GroEL
  • Database: swissprot
  • Organism filter: не использовался
  • Algorithm: blastp
  • Expect threshold: стандартный
  • Matrix: BLOSUM62
  • Gap costs: стандартные
  • Compositional adjustment: стандартный
  • Low complexity filter: стандартный

Текстовая выдача BLAST была сохранена в файл текстовая выдача BLAST для B2A5V3.

Результаты поиска

В результате поиска были найдены многочисленные значимые совпадения с белками, аннотированными как Chaperonin GroEL, 60 kDa chaperonin или Chaperonin-60. Лучшая находка — исходная последовательность B2A5V3.1, для которой покрытие запроса составляет 100%, идентичность — 100%, а E-value = 0.0. Остальные выбранные находки также имеют E-value = 0.0, высокое покрытие запроса и идентичность около 70–71%, что указывает на достоверную гомологию.

Для множественного выравнивания были выбраны следующие последовательности:

Последовательность в Jalview Accession Белок Организм Длина
1B2A5V3.1/1-548B2A5V3.1Chaperonin GroELNatranaerobius thermophilus JW/NM-WN-LF548
2C5D4F4.1/1-539C5D4F4.1Chaperonin GroELGeobacillus sp. WCH70539
3B7GFR6.1/1-538B7GFR6.1Chaperonin GroELAnoxybacillus flavithermus WK1538
4Q07201.1/1-539Q07201.1Chaperonin GroELGeobacillus stearothermophilus539
5O50305.2/1-544O50305.2Chaperonin GroELHalalkalibacterium halodurans C-125544
6Q8VV84.1/1-539Q8VV84.1Chaperonin GroELParageobacillus thermoglucosidasius539
7A4IJV3.1/1-540A4IJV3.1Chaperonin GroELGeobacillus thermodenitrificans NG80-2540

Эти последовательности были скачаны из BLAST-выдачи в FASTA-формате и использованы для построения множественного выравнивания в Jalview. Итоговое выравнивание было сохранено как проект Jalview: итоговое множественное выравнивание GroEL.

Обоснование гомологичности

Все выбранные белки являются гомологами исходного белка B2A5V3.1, так как они аннотированы как Chaperonin GroEL / 60 kDa chaperonin / Chaperonin-60 и имеют близкую длину: от 538 до 548 аминокислотных остатков. При BLAST-поиске они выравниваются с исходным белком почти по всей длине: покрытие запроса составляет примерно 96–100%. Для всех выбранных находок E-value = 0.0, а идентичность с исходной последовательностью составляет около 70–100%. Такое сочетание высокого покрытия, высокой идентичности и крайне малого E-value показывает, что сходство не является случайным и отражает общее эволюционное происхождение белков.

Явно негомологичные белки среди выбранных последовательностей обнаружены не были. Поэтому после редактирования в итоговом выравнивании были оставлены все семь выбранных последовательностей.

2. ПОИСК ГОМОЛОГОВ ЗРЕЛОГО ВИРУСНОГО БЕЛКА, ВЫРЕЗАННОГО ИЗ ПОЛИПРОТЕИНА

Для второго задания был выбран вирусный полипротеин из Swiss-Prot: UniProt ID: POLN_MIDDV, UniProt AC: P03318. Белок: Polyprotein nsP1234. Организм: Middelburg virus. Запись P03318 соответствует полипротеину Polyprotein nsP1234 вируса Middelburg virus.

В аннотации полипротеина был выбран зрелый белок RNA-directed RNA polymerase nsP4. Координаты в полипротеине: 386–995. Длина зрелого белка: 610 аминокислотных остатков.

Получение последовательности зрелого белка

Для вырезания зрелого белка из полипротеина использовалась программа EMBOSS seqret:

seqret 'sw:p03318[386:995]' nsp4_Middelburg.fasta

После этого заголовок FASTA-файла был отредактирован вручную. Итоговый заголовок:

>MIDDV_nsp4_RdRp P03318:386-995 RNA-directed RNA polymerase nsP4

FASTA-файл зрелого белка: nsp4_Middelburg.fasta.

BLAST зрелого белка nsP4

Полученная последовательность зрелого белка MIDDV_nsp4_RdRp была использована как запрос для NCBI Protein BLAST.

  • Program: BLASTP
  • Query: MIDDV_nsp4_RdRp P03318:386-995 RNA-directed RNA polymerase nsP4
  • Database: swissprot
  • Organism filter: не использовался
  • Algorithm: blastp
  • Expect threshold: стандартный
  • Matrix: BLOSUM62
  • Gap costs: стандартные
  • Compositional adjustment: стандартный
  • Low complexity filter: стандартный

Текстовая выдача была сохранена в файл текстовая выдача BLAST для зрелого белка nsP4 без фильтра по организмам.

Результаты поиска

Лучшей находкой оказался исходный полипротеин P03318.2 из Middelburg virus: покрытие запроса 100%, идентичность 100%, E-value = 0.0. Далее в выдаче идут вирусные полипротеины альфавирусов, содержащие зрелый белок RNA-directed RNA polymerase nsP4. Среди лучших находок: P08411.2, P13888.2, P13887.2, Q8QZ73.3, O90370.1, Q9JGL0.3 и другие. Большинство лучших совпадений имеют покрытие запроса 100%, идентичность около 75–77% и E-value = 0.0.

Для множественного выравнивания были выбраны следующие последовательности:

Accession Белок Организм Query cover Identity E-value
1P03318.2Polyprotein nsP1234, содержит nsP4Middelburg virus100%100.00%0.0
2P08411.2Polyprotein P1234, содержит nsP4Semliki Forest virus100%76.62%0.0
3P13888.2Polyprotein nsP1234, содержит nsP4Ross river virus strain T48100%77.00%0.0
4P13887.2Polyprotein P1234, содержит nsP4Ross river virus strain NB5092100%76.27%0.0
5Q8QZ73.3Polyprotein P1234, содержит nsP4Mayaro virus100%76.10%0.0
6O90370.1Polyprotein P1234, содержит nsP4Igbo Ora virus100%76.67%0.0
7Q9JGL0.3Polyprotein P1234, содержит nsP4Sagiyama virus100%75.65%0.0

Последовательности были скачаны в FASTA-формате и использованы для построения множественного выравнивания в Jalview.

Так как BLAST-находки представлены полипротеинами, а исходный запрос — только зрелым белком nsP4, при редактировании выравнивания были удалены все буквы находок, находящиеся левее первой и правее последней буквы, выровненной с исходной последовательностью MIDDV_nsp4_RdRp. В итоговом выравнивании были оставлены только участки, соответствующие зрелому белку RNA-directed RNA polymerase nsP4.

Итоговое выравнивание было сохранено как проект Jalview: итоговое множественное выравнивание зрелого белка nsP4.

Обоснование гомологичности

Оставленные белки являются гомологами зрелого белка RNA-directed RNA polymerase nsP4, поскольку все они входят в состав вирусных полипротеинов nsP1234 / P1234 и содержат участок, аннотированный как RNA-directed RNA polymerase nsP4. Лучшие находки выравниваются с исходным зрелым белком по всей длине, имеют покрытие 100%, идентичность около 75–77% и E-value = 0.0. Это указывает на достоверную гомологию.

Слабые дальние совпадения с низким покрытием или низкой идентичностью не использовались для итогового множественного выравнивания, так как целью было сравнение ближайших гомологов зрелого белка nsP4.

3. ИССЛЕДОВАНИЕ ЗАВИСИМОСТИ E-VALUE ОТ ОБЪЁМА БАНКА

Для исследования зависимости E-value от объёма банка был повторён BLAST-поиск зрелого белка MIDDV_nsp4_RdRp, но теперь был применён фильтр по организмам (Viruses).

Текстовая выдача BLAST с фильтром Viruses была сохранена в файл текстовая выдача BLAST для зрелого белка nsP4 с фильтром Viruses.

Сравнение списков находок

Список лучших находок при ограничении поиска вирусами практически не изменился. В обеих выдачах верхние позиции занимают вирусные полипротеины nsP1234 / P1234, содержащие зрелый белок RNA-directed RNA polymerase nsP4. Среди них: P03318.2, P08411.2, P13888.2, P13887.2, Q8QZ73.3, O90370.1, Q9JGL0.3 и другие.

Однако при поиске без фильтра по организмам в конце выдачи появились слабые невирусные совпадения, например белки Haemophilus с большими E-value. При использовании фильтра Viruses такие невирусные находки исчезли. Следовательно, для достоверных вирусных гомологов список почти не изменился, но слабые случайные невирусные совпадения были удалены фильтром.

Оценка доли вирусных белков в Swiss-Prot

Для оценки была выбрана находка, у которой E-value не равно машинному нулю:

  • Accession: Q88920.1
  • Белок: Replicase large subunit / RNA-directed RNA polymerase
  • Организм: Turnip vein-clearing virus

Для этой находки значения E-value различались в двух поисках:

Условие поиска E-value Score
Без фильтра по организмам1e-1171.6 bits
С фильтром Viruses6e-1371.6 bits

В обоих случаях это одна и та же находка Q88920.1, с одинаковым score 71.6 bits, но с разными E-value из-за различного эффективного объёма базы данных. В поиске без фильтра E-value равно 1e-11, а в поиске с фильтром Viruses — 6e-13.

E-value приблизительно пропорционально объёму базы данных. Поэтому долю вирусных белков в Swiss-Prot можно оценить как отношение E-value при поиске по вирусам к E-value при поиске по всей базе:

Доля вирусных белков ≈ E_virus / E_all

E-value = 1 × e-11
E-all = 6 × e-13

E_virus / E_all = 6e-13 / 1e-11 = 0.06 = 6%

Вывод по заданию 3

При ограничении поиска таксоном Viruses список лучших достоверных находок почти не изменился, потому что ближайшие гомологи зрелого белка nsP4 являются вирусными белками. Однако из выдачи исчезли слабые невирусные совпадения.

На примере находки Q88920.1 было показано, что E-value уменьшилось с 1e-11 до 6e-13 при уменьшении объёма банка. Отношение этих значений даёт оценку доли вирусных белков в Swiss-Prot:

6 × e-13 / 1 × e-11 = 0.06

Таким образом, по данным этого сравнения доля вирусных белков в Swiss-Prot составляет примерно 6%.