Поиск гомологов

1. Нахождение гомологов 5TOG в Swissprot

При запуске BLAST были выбраны следующие параметры:

Результат поиска можно скачать тут.

Для множественного выравнивания из числа всех находок были выбраны: P0CH33; P0CG47; P0CG49; P0CG48; P0CG73; P0CG69 и P62972.

Результаты множественного выравнивания, все белки которого были сочтены мной гомологичными ввиду большой схожести в них участка 1-228, не считая инделя у последней последовательности, можно найти тут.

2. Нахождение в Swissprot гомологов последовательности зрелого вирусного белка

Координаты белка в полипротеине 1ab вируса MERS: 4378-5310, это РНК-зависимая РНК полимераза.

При запуске BLAST были выбраны следующие параметры:

Результат поиска можно скачать тут.

Для множественного выравнивания из числа всех находок были выбраны: K9N7C7 (оригинал, по которому велся поиск); P0C6W4; P0C6W3; P0C6W1; P0C6X7; P0C6W6 и P18478.

Из них P18478 явно негомологичен интересующему нас белку из-за множественных несовпадений, а выравнивание оставшихся полипротеинов можно найти тут.

3. Исследование зависимости E-value от объёма банка

Тот же поиск, но среди только вирусов, дал такие результаты.

Сравним E-value для белка Q9WQ76. В поиске по всем таксонам оно составляет 4e-151, а в поиске только среди вирусов - 2e-152.

По формуле

E-value=Kmn·e-λS

понятно, что при прочих равных E-value прямо пропорционально размеру базы данных (n), то есть отношение полученных E-value равно отношению объемов баз данных, а это разница в 20 раз. Таким образом, все пследовательности вирусов в swiss-prot составляют 1/20 ото всех последовательностей этой базы данных.