(taxonomy_id:10239) AND (protein_name:polyprotein) AND (existence:1) AND (reviewed:true) |
Для дальнейшей работы я выбрала полипротеин вируса Саркомы Рауса ENV_RSVSA P0DTM5. Во время созревания этот полипротеин протеолитически расщепляется клеточной протеазой носителя на два зрелых белка: поверхностный белок SU (отвечающий за связывание с рецептором инфицируемой клетки) и трансмембранный белок TM. Именно с ним я и продолжу работать.
Поле FT записи Swiss-Prot, содержащее информацию о выбранном мною белке:
… FT CHAIN 42..246 FT /note="Transmembrane protein" FT /evidence="ECO:0000250" FT /id="PRO_0000457352" … |
Командой seqret 'sw:ENV_RSVSA[42:246]' tm_part.fasta я вырезала интересующий меня фрагмент (трансмембранный белок) из последовательности полипептида и сохранила его в файл tm_part.fasta, который в дальнейшем будет использован для поиска BLASTP. Название я подправила вручную.
Текстовая выдача запроса в BLASTP (все параметры запроса аналогичны тем, что представлены в отчете по заданию 1).
Для выравнивания я выбрала следующие последовательности:
При выборе я также руководствовалась филогенетическим разнообразием: набор включает представителей трех родов ретровирусов — Alpharetrovirus (Rous sarcoma virus, Avian sarcoma virus, Rous-associated virus type 1), Gammaretrovirus (Moloney murine leukemia virus, Gibbon ape leukemia virus, Reticuloendotheliosis virus, Human endogenous retrovirus W) и Deltaretrovirus (Human T-cell leukemia virus 3). Диапазон идентичности составляет от 25% до 96% (кроме исходного белка со 100%). Покрытие для всех выбранных последовательностей составляет >70% (для большинства >90%).
Я создала текстовый файл viral_align.txt со строками:
sw:env_rsvsa[42:246] sw:env_avisr sw:rmil_avevr sw:env_mlvms sw:env_galv sw:env_avire sw:sycy1_human sw:env_htl32 |
Затем командой seqret @viral_align.txt viral_align.fasta создала файл в fasta-формате и запустила программу выравнивания muscle на сервере kodomo:
muscle -align viral_align.fasta -output viral_TM_alignment.fasta |
Полученное множественное выравнивание можно рассмотреть ниже. На очень коротких промежутках прослеживается какая-то общность строения, но в целом, на мой субъективный взгляд, выравнивание слабое. Я даже не стала скрывать какие-то последовательности, потому что и без того видно, что гомологии почти нет, и только в считанных местах это похоже на выравнивание.

Я могу предположить, что такой результат связан, во-первых, с очень быстрой эволюцией вирусов по сравнению с живыми в полном смысле этого слова организмами. А во-вторых, с тем, что этот трансмембранный белок не критически важен для жизненного цикла (связывание с рецептором будущего носителя, проникновение в клетку, репликация и сборка вирусных частиц). Так что частые замены в большинстве позиций на всем протяжении белка оказываются допустимы и не сильно портят вирулентность. Думаю, что если бы я выбрала полипептид, который затем процессируется в белки-участники репликативного цикла вируса (например, как у ВИЧ, который содержит обратную транскриптазу, протеазу и интегразу), то сходство у находок было бы побольше, даже если бы я выбирала их по тому же принципу таксономического разнообразия и широких диапазонов статистических характеристик (скор, идентичность, покрытие).
В задании этого не просили, но я попробовала построить выравнивание на вырезанных частях тех же полипептидов, которые выровнялись с референсной последовательностью (эти координаты можно увидеть в текстовой выдаче запроса BLAST). То есть в этот раз были не одна обрезанная последовательность референсного полипептида (трансмембранный белок ENV_RSVSA, с 42 по 246 а.о.) плюс семь обычных полипептидов, а все 8 были обрезаны по координатам части, выравниваемой с полипептидом.
Для этого я создала текстовый файл onlyTM_align.txt уже с таким набором строк:
sw:env_rsvsa[42:246] sw:env_avisr[42:246] sw:rmil_avevr[384:449] sw:env_mlvms[511:635] sw:env_galv[547:665] sw:env_avire[405:544] sw:sycy1_human[365:486] sw:env_htl32[367:482] |
Применила команды:
seqret @onlyTM_align.txt onlyTM_align.fasta muscle -align onlyTM_align.fasta -output viral_onlyTM_alignment.fasta |
Таким образом я получила множественное выравнивание, которое можно увидеть ниже. По всей видимости, это не сильно помогло, результат выглядит не многим лучше (но все равно поприятнее), чем предыдущий. В данном конкретном случае, я точно могу сказать, какую последовательность стоило бы удалить: rmil_avevr (Rous-associated virus type 1).

Предыдущий поиск (задание 2) был повторен с теми же параметрами BLAST, но теперь был применен фильтр по организмам, ограничивающий поиск вирусами (Viruses).
Изменился ли список находок? Да, но незначительно, при настройках из задания два в списке было 49 находок, а после добавления фильтра их осталось 47.
Для выполнения задания нужно было найти какую-нибудь находку, чье E-value поменялось по сравнению с предыдущим поиском и путём сравнения значений E-value этой находки в двух поисках оценить долю вирусных белков в Swiss-Prot.
Данные приведены для находки P03396.2 (Envelope glycoprotein gp95, Rous sarcoma virus subgroup C (strain Prague))
Рассмотрим формулу из презентации:
E-value = m × n × 2^(-B)
где: m — длина запроса (query), n — суммарная длина базы данных (в нашем случае в аминокислотах), B — битовый score (bit score).
Из формулы видно, что значение E-value прямо пропорционально размеру базы данных n. Если ограничить поиск только вирусами (применить фильтр), то размер базы n, а следовательно, и E-value уменьшатся пропорционально. При этом m и B останутся прежними (ни длина запроса query, ни битовый скор не зависят от размера базы).
Отсюда:
nс_вирусами / nвся_база = E-valueс_фильтром / E-valueбез_фильтра = (3e-107) / (7e-106) = 0.043 (или 4,3%)
На основании сравнения E-value одной и той же находки в двух выдачах (при поиске с фильтром и без), я получила следующую оценку: 4,3% базы Swiss-Prot составляют вирусные белки.
В интернете мне удалось найти статью, где их доля оценивается в 3% (16,866/560,659 = 0,03 или 3%).
*Погрешность, конечно, огромная (4,3/3 = 1,43).