Белок, выбранный в седьмом практикуме - глюкоманнокиназа с ID: GLMK_SEGBR. Поиск базы BLAST Protein я выполняла по fasta-последовательности, word size и другие параметры я оставила по умолчанию, выбрав Database: UniProtKB/Swiss-Prot(swissprot). Поиск по роду Prevotella (taxid:838) привёл к одной находке, после изменения размера слова с 5 до 2 так же наблюдалась одна находка. Поиск без таксона дал огромное количество результатов (5000 из 5000). Скорее всего, это связано с тем, что выбранный мною в седьмом практикуме белок является фрагментом. Поэтому, в связи с рекомендациями на сайте курса, я выбрала другой белок для выполнения задания.
Ссылка на текстовую выдачу программы по первоначальному белку
В качестве нового белка был выбран белок с именем ксилан-1,4-бета-ксилозидаза и ID: XYL3A_XYLR2. Выбирая, я поднялась на таксон выше, сделав поиск по семейству Prevotellaceae (taxonomy_id:171552). Итоговый поисковой запрос в UniProtKB был следующим - (reviewed:true) AND (taxonomy_id:171552). И я выбрала первый белок в выдаче с Annotation score 5 и приемлемой длиной.Далее я несколько раз меняла параметры поиска по этому белку и пришла к следующим:
Database: UniProtKB/Swiss-Prot(swissprot) Organism: - Expect threshold: 0.05 Word size: 5 Остальные параметры по умолчанию
В выдаче оказалось 127 находок. Я выбрала 6 белков из выдачи, один из которых был исходной ксилан-1,4-бета-ксилозидазой, а остальные следующие верхие 5 белков с наибольшим значением E-value.
Текстовая выдача программыДалее я сделала множественное выравнивание выбранных белков прямо в Jalview. Для этого после загрузки последовательностей я выбрала в меню Web Service → Alignment, а далее Muscle with Defaults. Получившееся выравнивание я отредактировала, покрасив по проценту идентичности, после оценки консервативности участков и анализа результата я пришла к выводу, что все белки в выравнивании гомологичны. На это указывает наличие нескольных консервативных участков в колонках: 109-117, 191-209, 432-441 и несколько участков ближе к концу. И хотя первоначальный белок имеет достаточно длинный уникальный участок с 501 по 650 а.о., я посчитала, что это не влияет на гомологию, так как может быть ряд причин, как возник подобный участок, например, приобритение нового домена белком и тд.
Итоговое множественное выравниваниеПримечание: меня очень беспокоил этот участок, поэтому я обратилась к Дипсику и он посоветовал проверить этот белок в NCBI CD-Search на соответвия в доменной архитектуре. Я честно попыталась это сделать, но не разобралась с управлением, так что сей участок всё ещё остается для меня загадкой.
Для поиска полипротеина вируса я сформировала следующий поисковой запрос в UniprotKB - (taxonomy_id:10239) AND (protein_name:polyprotein) AND (reviewed:true). Его название - Tula orthohantavirus (TULV) (Tula virus) или же Тульский ортогантавирус (ТУЛВ) (вирус Тулы), ID: GP_TULV, AC: P0DTJ1.
Был выбран следующий зрелый белок, на который разрезается полипротеин:
Название: Glycoprotein N Координаты: 20..653 (начало и конец)
Далее средствами EMBOSS я вырезала в отдельный файл этот фрагмент полипротеина, подходящее название и описание последовательности было дано прямо в текстовом редакторе. Ниже приведена одна из использованных команд и файл с получившейся последовательностью.
seqret 'sw:GP_TULV[20:653]' segment_vir.fastaФайл с вирусным белком
Далее тем же способом, что и в задании 1, я создала поисковой запрос в BLAST, получив 18 находок. Все они были с значением E-value равным машинному нулю, это значит, что совпадение настолько статистически значимо, что вероятность его случайного возникновения стремится к нулю в рамках вычислительных возможностей программы. Это ожидаемо для высококонсервативных белков у близкородственных вирусов. Поэтому я обратила внимание на название видов вирусов и взяла от каждого вида по одному белку с наибольшим значением процента идентичности. Не беря в выравнивания штаммы идентичных видов, так как мне показалось, что это будет не особо информативно. Тем же образом, что и в прошлом пункте, я сделала множественное выравнивание.
Получилось достаточно хорошее выравнивание, консервативные участки находились по большей части в середине последовательностей (с 383 по 504 колонку участок с наибольшим процентом идентичности) и ближе к концу, тогда как в начале аминокислотные остатки совпадали реже. В целом, можно говорить о гомологии всех этих белков и высокой консервативности и функциональной значимости белка, так как несмотря на то, что были отобраны последовательности разных видов вирусов, процент идентичности исходной последовательности достаточно высок.
Проект Jalview множественного выравнивания вирусных белковДалее я повторила поиск из предыдущего задания, в этот раз применив фильтр по организмам (Viruses). Для меня стало неожиданностью, что находок стало на одну больше. Значения E-value первых 18ти находок всё так же равнялись машинному нулю, а вот последняя новая находка имела E-value равный 0.005. Поэтому, чтобы оценить долю вирусных белков в Swiss-Prot я решила вернуться на шаг назад и сделать поиск без фильтрации по организмам, но с большим пороговым значением E-value, дабы найти появившуюся 19тую последовательность и сравнить её значения E-value при двух разных запросах. Я увеличила значение фильтра по E-value до 0.3, поиск дал 20 результатов, среди которых была искомая последовательность, но её E-value не изменился. E-value 20ой последовательности так же не меняется в запросах. Складывается такое ощущение, что данные белки из-за низкой релевантности по сравнению с первыми 18тью просто не находятся алгоритмом BLAST.
Далее я повторила запрос с фильтром по организмом и без, абсолютно не меняя его параметры, и результаты стали подходящими. Не знаю, как это объяснить, но давайте закроем глаза на абзац выше и сделам вид, что так и должно быть. E-value находки с accession Q8JSZ3.1 при поиске с фильтром: 0.005, а без фильтра - 0.12.
Выдача без фильтра по организмам и E-value 0.3
Выдача с фильтром по организмам и E-value 0.3
Согласно этому отношению:
E_vir / E_full = n_vir / n_full 0.005/0.12 = n_vir / n_full 0.0417 = n_vir / n_fullГде n_vir — общая длина вирусной части базы данных, n_full — общая длина полной базы данных (Swiss-Prot). Таким образом, доля вирусных последовательностей в Swiss-Prot оценивается примерно в 4.17%.