1)Гомологи белка из практикума 3
Для практикума 3 мной был выбран белок BIOHC Teridinibacter turnerae, участвующий в биосинтезе биотина(C5BMZ8). Для него был произведен поиск гомологов с помощью BLAST.
Текстовая выдача программы: биотин_выдача
Поиск был проведен при следующих параметрах: максимальное количество найденных последовательностей - 250, длина слова - 5, матрица - BLOSUM62, цена существования гэпа - 11, цена продления гэпа - 1, ожидаемый порог - 0.05. Поиск был произведен по базе данных nr.
Были отобраны находки со следующими идентификаторами:
WP_082086906.1
WP_185232698.1
WP_235425718.1
WP_303490953.1
WP_012486110.1
Было построено множественное выравнивание этих находок и изначального белка. Все выравненные последовательности скорее всего гомологичны, не было найдено заметно различающихся участков. Результат представлен по ссылке: биотин_множественное_выравнивание
2)Гомологи протеазы HIV-1 из полипротеина Gag-Pol
Выбранный для этого задания полипротеин - Gag-Pol(принадлежит HIV-1).
Данные полипротеина:
ID POL_HV1N5
AC P12497
OS Human immunodeficiency virus type 1 group M subtype B (isolate NY5)
OS (HIV-1).
Для анализа была выбрана протеаза(/note="Protease), имеющая в полипротеине координаты 489..587.
Ссылка на файл с протеазой: последовательность_протеазы
Далее для протеазы аналогично первому заданию были найдены вероятные гомологи, с которыми потом было построено множественное выравнивание. Участки, выходящие за пределы частей последовательностей, выравненных с протеазой, были удалены. Все выравненные последовательности скорее всего гомологичны, не было найдено заметно различающихся участков.
Идентификаторы отобранных последовательностей:
AFH76670.1
AFH76811.1
AFH76583.1
AAA91447.1
ABN04517.1
Ссылка на выдачу поиска гомологов: протеаза_выдача
Параметры поиска совпадали с параметрами из задания 1.
Результат выравнивания: протеаза_множественное_выравнивание
3)Вычисление доли вирусных белков в Swiss-prot
Поиск из пункта 2 был повторен с изменением базы данных на Swiss-prot(остальные параметры без изменений) в двух вариациях: с ограничением поиска только вирусами и без.
Для сравнения была выбрана последовательность P12499.3. При поиске без указания таксона её E-vlue составило 7e-61, а с указанием таксона — 3e-62. Так как E-value линейно зависит от размера базы данных, то доля вирусных белков в Swiss-prot составляет (3e-62):(7e-61), что приблизительно равно 0.0429.