Задание 1

AC: Q7CRQ0

База данных: Swiss-Prot

Алгоритм: blastp

Максимальное количество последовательностей в выдаче: 100

Ожидаемое пороговое значение E-value: 0.05

Матрица: BLOSUM62

Штрафы за гэпы: 11 за наличие, 1 за продление

Текстовую выдачу программы можно найти по этой ссылке.

Для создания выравнивания я отобрал белки Q7CRQ0, Q88NN6, Q888H1, D4GS48, P55294, Q8PDW5. Последовательности P55294 и Q8PDW5 я удалил из выравнивания из-за низкой степени сходства с прочими последовательностями. Тем не менее, среди остальных белков есть несколько достаточно консервативных участков; обращает на себя внимание пара Q88NN6-Q888H1, в которой практически в каждой позиции совпадающие аминокислоты.

JalView-проект со множественным выравниванием можно найти по этой ссылке.

Задание 2

Для работы с полипротеином я выбрал следующую запись:

ID — POLN_SINDV

AC — P03317

OS — Sindbis virus (SINV)

Выбранный белок: mRNA-capping enzyme nsP1; координаты: 1 — 540.

Fasta-последовательность зрелого белка можно найти по этой ссылке.

Для создания множественного выравнивания я выбрал белки P03317, Q86924, Q5Y389, P08411, Q5XXP4, Q8QZ73. Все последовательности выровнялись хорошо, о чём говорит большое количество высококонсервативных участков.

JalView-проект со множественным выравниванием можно найти по этой ссылке.

Задание 3

В задании 2 выдача запроса включала 25 последовательностей, а при указании в условиях таксона Viruses выдача не изменилась. Возможно, подобный белок встречается только у вирусов. Кроме того, для последовательности Q8JJX1.11 значения E-value в обоих выдачах различаются: в общем списке оно составляет 2e-128, а в списке вирусов 1e-129. Если исходить из того, что отношение числа вирусных белков к числу всех белков равно соответствующему отношению значений E-value, то можно определить, что доля вирусных белков в Swiss-Prot составляет 5%.