Практикум 10. Программа BLAST

Задание 1

Я запустил BLAST с параметрами:

Результат работы программы в виде текстового файла по ссылке

Я выбрал несколько записей из верха списка и построил при помощи JalView множественное выравнивание данной мне последовательности и выбранных. Проект с выравниванием в виде файла по ссылке. Все выбранные белки гомологичны потому что в них много консервативных колонок и участков по несколько колонок, расположенных примерно равномерно по всей длине выравнивания.

Задание 2

Я выбрал аннотированный вирусный пролипротеин P1234:

В нем из нескольких белков, которые он кодирует, выбрал RNA-directed RNA polymerase nsP4 (РНК-зависимая РНК-полимераза) с координатами 1891-2497.

Скачал и вырезал из последовательности всего полипротеина только выбранный зрелый белок при помощи команд:

Далее с теми же самыми настройками программы BLAST я получил множество выравниваний (файл с результатом работы) зрелого белка nsP4 с другими. Выбрал несколько и построил множественные выравнивания. Проект JalView. Все выбранные белки гомологичны, потому что на всей их длине встречаются наборы консервативных колонок, между которыми нет гэпов, хоть и встречаются вариативные участки.

Задание 3

Я ограничил круг организмов, по которым алгоритм BLAST может искать последовательности для выравнивания до группы Viruses. Далее в новом и старом списке результатов выравниваний я нашел строк с выравниванием последовательности данного зрелого белка с одной и той же последовательностью (совпадающие AC). По всему банку E-value был равен 0,013, только по вирусам - 0,0006. Разница в 22 раза. Обратившись к формуле для расчёта E-value (рисунок 1), видим что различается только переменная n, соответствующая длине банка. Значит, вирусные белковые последовательности суммарно в длину составляют примерно 4,6% суммы длин всех последовательностей в банке. photo
Рисунок 1. Формула для расчёта E-value.