Практикум 10. Blast

Поиск гомологов белка в Swiss-Prot

Для выполнения задания практикума был выбран белок P02945. Параметры программы были выбраны следующие:

Program blastp
Word size 5
Expect value 0.05
Hitlist size 100
Gapcosts 11,1
Matrix BLOSUM62
Filter string F
Genetic Code 1
Window Size 40
Threshold 0
Composition-based stats 2

При заданных параметров текствая выдача программы следующая Текстовая выдача

100% совпадение для WP_010903069.1. Для множественного выравнивания были выбраны 5 белков с id: WP_281271320.1; WP_240009234.1; WP_256488650.1; WP_092694354.1; WP_256408832.1. Было произведено множественное выравнивание. Все белки гомологичны друг другу так как наблюдаются участки с высокой гомологией. Например участки 39-88, 90-149.

Выравнивание

Поиск гомологов зрелого вирусного белка, вырезанного из полипротеина в Swiss-Prot.

Для выполнения данного практикума был выбран полипротеин D7RF80 из вируса Orthoflavivirus kyasanurense

ID POLG_KFDV AC D7RF80; B1PMU9; H8Y6L3; H8Y6L4; H8Y6L5; Q14F58. Был выбран один из белков полипротеина: Сериновая протеаза NS3 [1492..2112]. Для поиска похожих белков использовались те же параметры что и в пункте 1, но максимальное число схожих белков было увеличено до 500, так как в выдаче 100 не хватало разнообразия белков. Текстовая выдача программы следующая: Текстовая выдача

100% совпедение для белка AXB87730.1. Относительно его последовательности будет проводиться множественное выравнивание. Для множественного выравнивания были выбраны белки с id: AMQ49166.1; QRI43517.1; QGA69997.1; QBR53298.1; USV40630.1 Выравнивание

Исследование зависимости E-value от объёма банка.

При поиске с ограничением по базе данных "только вирусы" выдача не меняется, но поиск осуществляется быстрее. Далее сравнивался посиск по базе данных Swiss-Prot с ограничением на вирусы и без. Выдача в обоих случаях составляла 66 находок. Для оценки количества вирусов в базе данных использовалась формула для расчета E-value: E-value=Kmn·e^(-λS). Меняется размер базы данных. Остальные параметры константы. Поэтому отношение E-value(viruses)/E-value(all) и будет являться отношиением размеров баз данных, что и нужно найти. Для сравнения был выбран организм Yellow fever virus Trinidad/79A/1979.

7e-171 и 2e-169 для ограничения на поиск среди и без соотвественно. Отношение 7e-171 к 2e-169 будет долей Вирусов в базе данных. Получается 0.035 или 3.5%.