Программа Blast

1. Гомологи белка RNC_AQUAE

С помощью программы BLAST был выполнен поиск гомологичных белков. В поиск был записан AC моего белка (O67082), и выбраны параметры: Database - UniprotKB/Swiss-Prot, BLAST algorithm - blastp. В параметрах алгоритма я выбрал длину слова 2 и ограничил число выдаваемых результатов до 10.

Результаты можно увидеть здесь. Из них выли выбраны 5 последовательностей, для которых было выполнено множественное выравнивание. Наблюдаются консервативные участки (41-46, 163-165), после 227 столбца схожих участков почти нет.

2. Гомологи зрелого вирусного белка

Поиск в Blast дал 93 полипротеина. Из них был выбран полипротеин Polyprotein nsP1234 (ID:POLN_RRVT AC:P13888) вируса Ross river virus (strain T48) (RRV). Из которого был выбран зрелый белок RNA-directed RNA polymerase nsP4, и его последовательность была дана на вход Blast с теми же параметрами, что и в первом упражнении. После чего были выбраны 6 белков, с которыми я провел выравнивание. В результате было получено, что белки в целом имеют достаточно много гомологичных участков (328-330, 516-518). Но при этом гомология 6 выбранных выражена больше чем гомология бключая исходный белок.

Выдача Blast: blast22.txt

Последовательность зрелого белка RNA-directed RNA polymerase nsP4: blast2.fasta

Проект: blast5.jvp

3. Исследование зависимости E-value от объёма банка

Используя прежние параметры, но добавив фильтр по оргамизмам, я получил 50 полипротеинов. Из которых я выбрал полиспротеин с АС:Q8JUX6.1, который встретился и в общем поиске. При котором значение Е было 1е-161, при втором же поиске оно уже составляло 5е-163. По теореме Карлина: E-value = K * m * n * e^(-λ * S), где K и λ – константы, m – длина исходной последовательности, n – размер базы данных, S – вес выравнивания. Тогда доля белков в Swiss-Prot равна E-value(вируса) / E-value(общ)=1е-161/5e-163 = 0,027. Значит вирусные белки занимают не более 3% Swiss-Prot.