Для поиска гомологов в Swiss-Prot был взят белок из 7 практикума белок биосинтеза рибофлавина RibBA (ID - A0A7L5DWX2_9SPHI). Сам поиск проводился в Blast. При запуске была вставлена последовательность с названием из fasta файла выбранного белка, а так же выбран банк swissprot. Дополнительные параметры не были указаны. В результате было найдено 277 последовательностей гомологов. Для множественного выравнивания были отобраны 7 белков, включая белок из 7 практикума: A0A7L5DWX2_9SPHI, RIBBA_PARD8, RIBBA_BACFN, RIBBA_PORG3, RIBBA_BREBN, RIBBA_BACMK, RIBBA_BACC0, RIBBA_BACCZ. Множественное выравнивание было сделано с помощью программы muscle.
Все выбранные белки гомологичны друг другу, очень широкие гомологичные участки по всей длине белков (5-19, 23-40, 44-64, 71-81, 86-93, 100-118, 124-155, 158-182, 191-220, 238-245, 251-279, 289-348, 353-377, 386-399). Немного отличаются от всех остальных белков последовательности с ID - RIBBA_PARD8, RIBBA_BACFN, RIBBA_PORG3, что хорошо видно в начале на промежутке 1-5, 132-139.
В качестве белка для второго задания был выбран белок капсид полипротеина VP86. ID: CAPSD_HASVA. AC: C7BG48; A0A3S6A2I7; A0A7T8EHX9. Название вируса: Human astrovirus VA1. Для дальнейшей работы в качестве зрелого белка был выбран core protein VP33 с координатами 1..298.
При поиске в Blast не указывались никакие дополнительные параметры, только последовательность и банк (swissprot). Нашлось 15 последовательностей полипротеинов, гомологичных вырезанному зрелому белку. Для множественного выравнивание были выбраны первые семь последовательностей с ID -CAPSD_HASV (выбранный изначально), CAPSD_OASV1, CAPSD_MASV1, CAPSD_HASV8, CAPSD_HASV1, CAPSD_HASV3, CAPSD_PASV1.
Множественное выравнивание было выполнено программой Muscle. На промежутке зрелого белка (1-298) можно увидеть позиции с высокой степенью консервативности (1-3, 70-89, 97-112, 120-141, 145-198, 203-222, 230-245, 252-257, 263-277). Можно предположить, что бнелки, вероятно, гомологичны. Наиболее отличаются белки с ID CAPSD_MASV1, CAPSD_OASV1, что наиболее заметно на промежутке 1-70.
Последовательность вырезанного зрелого белка
Текстовый отчет (с ограничением вирусами)
Я выбрала два вторых белка из двух поисковых запросов. У первых двух значений E-value равны 8e-135 и 2e-123, во втором поиске с ограничением по вирусам - 3e-136 и 1e-124 соответственно. Для нахождения доли вирусных белков поделим E-value белков из поиска с фильтром на E-value белков из первого поиска без фильтра. В результате получаем, что доля примерно 4-5%.