Практикум 10. Программа BLASTBLAST

1. Поиск в Swiss-Prot гомологов цитрамалат-синтазы CimA из Leptospira interrogans serovar Lai str. 56601

Для выполнения практикума 7 мною был выбран белок (R)-citramalate synthase CimA (цитрамалат-синтаза). Запись относится к базе данных Swiss-Prot, UniProtKB AC: Q8F3Q1.

При запуске BLASTP были заданы дефолтные параметры, кроме максимального числа выдаваемых находок, которое я увеличила до 500.

Рисунок 1. Параметры, использованные при запуске BLASTP

Рисунок 2. Параметры окна Algorithm parameters

Текстовая выдача моего запроса в BLASTP доступна по ссылке.
Всего в выдаче было представлено 488 находок, из которых я отобрала 7 для множественного выравнивания с исходным белком:

Q8F3Q1 - Leptospira interrogans serovar Lai str. 56601 (исходный)
Q8TYB1 - Methanopyrus kandleri AV19
Q8XXP1 - Ralstonia pseudosolanacearum GMI1000
Q8EN67 - Oceanobacillus iheyensis HTE831
P74269 - Synechocystis sp. PCC 6803 substr. Kazusa
O26819 - Methanothermobacter thermautotrophicus str. Delta H
Q8TYM1 - Methanopyrus kandleri AV19
Q9WZ22 - Thermotoga maritima MSB8

При выборе я руководствовалась филогенетическим разнообразием: набор включает представителей архей (Methanopyrus kandleri AV19, Methanothermobacter thermautotrophicus), протеобактерий (Ralstonia pseudosolanacearum), фирмикутов (Oceanobacillus iheyensis), цианобактерий (Synechocystis sp.) и термотог (Thermotoga maritima). При этом диапазон идентичности от 24% до 34%, а покрытие составляет >80% для всех последовательностей. В выборке присутствуют как ортологи исходного белка (R)-citramalate synthase, так и его паралоги: 2-isopropylmalate synthase. *Как альтернативный вариант можно было выбрать лучшие 5-7 находок и попытаться выровнять их.

Множественное выравнивание было получено тем же способом, что и в практикуме 9. Ниже можно увидеть само множественное выравнивание референсной и семи отобранных из выдачи BLASTP белковых последовательностей, окраска по проценту идентичности.

Я решила оставить все 7 отобранных последовательностей, поскольку на протяжении всей длины выравнивания обнаруживаются участки, состоящие из практически полностью совпадающих аминокислот. Например, участки с координатами 20-28, 198-201, 234-238, 242-250, 261-272, 323-335, 490-496. Так что я не могу сказать, что в моей выборке есть белки, абсолютно выбивающиеся из общего выравнивания. Да, безусловно есть те, которые выровнялись хуже или лучше, но я не вижу каких-то однозначных претендентов на удаление.

2. Поиск Swiss-Prot гомологов зрелого вирусного белка, вырезанного из полипротеина

Поисковый запрос:

(taxonomy_id:10239) AND (protein_name:polyprotein) AND (existence:1) AND (reviewed:true)

Для дальнейшей работы я выбрала полипротеин вируса Саркомы Рауса ENV_RSVSA P0DTM5. Во время созревания этот полипротеин протеолитически расщепляется клеточной протеазой носителя на два зрелых белка: поверхностный белок SU (отвечающий за связывание с рецептором инфицируемой клетки) и трансмембранный белок TM. Именно с ним я и продолжу работать.

ID (Entry name): ENV_RSVSA
AC (Accession): P0DTM5
Организм (OS): Rous sarcoma virus subgroup A (strain Schmidt-Ruppin)
Amino acids: 246
Статус: Reviewed
Координаты трансмембранного белка в полипептиде: 42 – 246

Поле FT записи Swiss-Prot, содержащее информацию о выбранном мною белке:

…
FT  	CHAIN        42..246
FT      /note="Transmembrane protein"
FT      /evidence="ECO:0000250"
FT      /id="PRO_0000457352"
…

Командой seqret 'sw:ENV_RSVSA[42:246]' tm_part.fasta я вырезала интересующий меня фрагмент (трансмембранный белок) из последовательности полипептида и сохранила его в файл tm_part.fasta, который в дальнейшем будет использован для поиска BLASTP. Название я подправила вручную.

Текстовая выдача запроса в BLASTP (все параметры запроса аналогичны тем, что представлены в отчете по заданию 1).

Для выравнивания я выбрала следующие последовательности:

P0DTM5 - Rous sarcoma virus (strain Schmidt-Ruppin A) (исходный)
P0DTM6 - Avian sarcoma virus RASV1441
P27966 - Rous-associated virus type 1
P03385 - Moloney murine leukemia virus isolate Shinnick
P21415 - Gibbon ape leukemia virus
P03399 - Reticuloendotheliosis virus
Q9UQF0 - Human endogenous retrovirus W (HERV-W) (Syncytin-1)
Q0R5Q9 - Human T-cell leukemia virus 3 (HTLV-3) strain 2026ND

При выборе я также руководствовалась филогенетическим разнообразием: набор включает представителей трех родов ретровирусов — Alpharetrovirus (Rous sarcoma virus, Avian sarcoma virus, Rous-associated virus type 1), Gammaretrovirus (Moloney murine leukemia virus, Gibbon ape leukemia virus, Reticuloendotheliosis virus, Human endogenous retrovirus W) и Deltaretrovirus (Human T-cell leukemia virus 3). Диапазон идентичности составляет от 25% до 96% (кроме исходного белка со 100%). Покрытие для всех выбранных последовательностей составляет >70% (для большинства >90%).

Я создала текстовый файл viral_align.txt со строками:

sw:env_rsvsa[42:246]
sw:env_avisr
sw:rmil_avevr
sw:env_mlvms
sw:env_galv
sw:env_avire
sw:sycy1_human
sw:env_htl32

Затем командой seqret @viral_align.txt viral_align.fasta создала файл в fasta-формате и запустила программу выравнивания muscle на сервере kodomo:

muscle -align viral_align.fasta -output viral_TM_alignment.fasta

Полученное множественное выравнивание можно рассмотреть ниже. На очень коротких промежутках прослеживается какая-то общность строения, но в целом, на мой субъективный взгляд, выравнивание слабое. Я даже не стала скрывать какие-то последовательности, потому что и без того видно, что гомологии почти нет, и только в считанных местах это похоже на выравнивание.

Я могу предположить, что такой результат связан, во-первых, с очень быстрой эволюцией вирусов по сравнению с живыми в полном смысле этого слова организмами. А во-вторых, с тем, что этот трансмембранный белок не критически важен для жизненного цикла (связывание с рецептором будущего носителя, проникновение в клетку, репликация и сборка вирусных частиц). Так что частые замены в большинстве позиций на всем протяжении белка оказываются допустимы и не сильно портят вирулентность. Думаю, что если бы я выбрала полипептид, который затем процессируется в белки-участники репликативного цикла вируса (например, как у ВИЧ, который содержит обратную транскриптазу, протеазу и интегразу), то сходство у находок было бы побольше, даже если бы я выбирала их по тому же принципу таксономического разнообразия и широких диапазонов статистических характеристик (скор, идентичность, покрытие).

В задании этого не просили, но я попробовала построить выравнивание на вырезанных частях тех же полипептидов, которые выровнялись с референсной последовательностью (эти координаты можно увидеть в текстовой выдаче запроса BLAST). То есть в этот раз были не одна обрезанная последовательность референсного полипептида (трансмембранный белок ENV_RSVSA, с 42 по 246 а.о.) плюс семь обычных полипептидов, а все 8 были обрезаны по координатам части, выравниваемой с полипептидом.

Для этого я создала текстовый файл onlyTM_align.txt уже с таким набором строк:

sw:env_rsvsa[42:246]
sw:env_avisr[42:246]
sw:rmil_avevr[384:449]
sw:env_mlvms[511:635]
sw:env_galv[547:665]
sw:env_avire[405:544]
sw:sycy1_human[365:486]
sw:env_htl32[367:482]

Применила команды:

seqret @onlyTM_align.txt onlyTM_align.fasta
muscle -align onlyTM_align.fasta -output viral_onlyTM_alignment.fasta

Таким образом я получила множественное выравнивание, которое можно увидеть ниже. По всей видимости, это не сильно помогло, результат выглядит не многим лучше (но все равно поприятнее), чем предыдущий. В данном конкретном случае, я точно могу сказать, какую последовательность стоило бы удалить: rmil_avevr (Rous-associated virus type 1).

3. Исследование зависимости E-value от объёма банка

Предыдущий поиск (задание 2) был повторен с теми же параметрами BLAST, но теперь был применен фильтр по организмам, ограничивающий поиск вирусами (Viruses).

Изменился ли список находок? Да, но незначительно, при настройках из задания два в списке было 49 находок, а после добавления фильтра их осталось 47.

Для выполнения задания нужно было найти какую-нибудь находку, чье E-value поменялось по сравнению с предыдущим поиском и путём сравнения значений E-value этой находки в двух поисках оценить долю вирусных белков в Swiss-Prot.

Данные приведены для находки P03396.2 (Envelope glycoprotein gp95, Rous sarcoma virus subgroup C (strain Prague))

E-value (без фильтра) = 7e-106 — ожидаемое количество случайных находок среди всех последовательностей (вирусных + невирусных), которые по чистой случайности будут иметь такой же или лучший, как у найденного выравнивания
E-value (с фильтром) = 3e-107 — ожидаемое количество таких же случайных находок только уже среди вирусных последовательностей

Рассмотрим формулу из презентации:

E-value = m × n × 2^(-B)

где: m — длина запроса (query), n — суммарная длина базы данных (в нашем случае в аминокислотах), B — битовый score (bit score).

Из формулы видно, что значение E-value прямо пропорционально размеру базы данных n. Если ограничить поиск только вирусами (применить фильтр), то размер базы n, а следовательно, и E-value уменьшатся пропорционально. При этом m и B останутся прежними (ни длина запроса query, ни битовый скор не зависят от размера базы).

Отсюда:

n_{с_вирусами} / n_{вся_база} = E-value_{с_фильтром} / E-value_{без_фильтра} = (3e-107) / (7e-106) = 0.043 (или 4,3%)

На основании сравнения E-value одной и той же находки в двух выдачах (при поиске с фильтром и без), я получила следующую оценку: 4,3% базы Swiss-Prot составляют вирусные белки.

В интернете мне удалось найти статью, где их доля оценивается в 3% (16,866/560,659 = 0,03 или 3%).

*Погрешность, конечно, огромная (4,3/3 = 1,43).