Практикум 10
Резюме: В ходе работы над данным практикумом были освоены базовые навыки работы с белковым BLASTом (blactp)
Поиск гомологов в Swiss-Prot
Белок, который я описывал в 7 практикуме - это альфа-субъединица уреазы (AC: Q5M1G6) из бактерии Streptococcus thermophilus. Поиск гомологов производился с помощью Protein BLAST на сайте NCBI. Базой данных для поиска был выбран банк Swiss-Prot, Max target sequences изменено на 50, Word size - на 2 (на всякий случай для повышения точности). Остальные параметры оставлены по умолчанию.
Результат состоял из 50 белковых последовательностей, E-value для всех составило 0.0 ("машинный ноль"), что говорит об очень высокой значимости находок. Из выдачи я сохранил 6 последовательностей в формате fasta и выровнял их и исходную с помощью программы muscle. Результат был загружен в Jalview, колонки раскрашены по проценту идентичности. Хорошо видно, что все выбранные белки, скорее всего, гомологичны друг другу, впрочем, этот вывод, наверное(?), можно было сделать и по очень низким значениям E-value. Это вполне ожидаемый результат, так как уреаза - это очень распространенный и консервативный белок благодаря участию в азотистом обмене.
Ссылки на файлы
Поиск гомологов зрелого вирусного белка, вырезанного из полипротеина
Я выбрал полипротеин вируса Западного Нила (семесйство Flaviviridae, монопартитный линейный геном, представленный +оцРНК), так как мне нравится его название. ID: POLG_WNV AC: P06935 OS: West Nile virus (WNV). Из зрелых белков я выбрал первый в последовательности полипротеина - Capsid protein C (координаты: 1..105). Этот белок участвует в внедрении генома в клетку и сборке вирусных частиц, а еще подавляет РНК сайленсинг (интерференцию).
Последовательность этого белка была вырезана из последовательности полипротеина c помощью данной команды:
descseq -sequence 'sw:p06935' -sbegin1 1 -send1 105 -outseq c.fasta -description 'Capsid_protein_C'
Далее был проведен поиск гомологов с помощью BLAST аналогично тому, как это делалось в пунтке 1 (с теми же параметрами). Выдача состоит из 45 белков, E-value для всех очень маленький, можно также заметитить, что все находки принадлжеат вирусам из семейства Flaviviridae. Далее было выбрано 6 белков и проведено их выравнивание c помощью программы muscle. Визуализация в Jalview подтверждает предположение о том, что эти 6 белков можно назвать гомологичными, хотя 2 из 6 белков немного выбиваются из общей картины, обладая меньшей идентичностью. Но очень низкий E-value находок и визуализация все равно говорит нам о том, что находки, скорее всего, гомологичны.
Ссылки на файлы
Исследование зависимости E-value от объёма банка
После применения фильтра (Viruses) по организмам список находок не изменился. E-value одного из белков до применения фильтра составлял 9e-48, после - 4e-49. Найдя отношение, получим отношение размеров баз данных (остальное сокращается), по которым осуществляется поиск. Оно равняется 0.04(4), то есть примерно 4,5%.