AC: Q7CRQ0
База данных: Swiss-Prot
Алгоритм: blastp
Максимальное количество последовательностей в выдаче: 100
Ожидаемое пороговое значение E-value: 0.05
Матрица: BLOSUM62
Штрафы за гэпы: 11 за наличие, 1 за продление
Текстовую выдачу программы можно найти по этой ссылке.
Для создания выравнивания я отобрал белки Q7CRQ0, Q88NN6, Q888H1, D4GS48, P55294, Q8PDW5. Последовательности P55294 и Q8PDW5 я удалил из выравнивания из-за низкой степени сходства с прочими последовательностями. Тем не менее, среди остальных белков есть несколько достаточно консервативных участков; обращает на себя внимание пара Q88NN6-Q888H1, в которой практически в каждой позиции совпадающие аминокислоты.
JalView-проект со множественным выравниванием можно найти по этой ссылке.
Для работы с полипротеином я выбрал следующую запись:
ID — POLN_SINDV
AC — P03317
OS — Sindbis virus (SINV)
Выбранный белок: mRNA-capping enzyme nsP1; координаты: 1 — 540.
Fasta-последовательность зрелого белка можно найти по этой ссылке.
Для создания множественного выравнивания я выбрал белки P03317, Q86924, Q5Y389, P08411, Q5XXP4, Q8QZ73. Все последовательности выровнялись хорошо, о чём говорит большое количество высококонсервативных участков.
JalView-проект со множественным выравниванием можно найти по этой ссылке.
В задании 2 выдача запроса включала 25 последовательностей, а при указании в условиях таксона Viruses выдача не изменилась. Возможно, подобный белок встречается только у вирусов. Кроме того, для последовательности Q8JJX1.11 значения E-value в обоих выдачах различаются: в общем списке оно составляет 2e-128, а в списке вирусов 1e-129. Если исходить из того, что отношение числа вирусных белков к числу всех белков равно соответствующему отношению значений E-value, то можно определить, что доля вирусных белков в Swiss-Prot составляет 5%.