Поиск гомологов в Swiss-Prot

В данном практикуме я анализирую CTP-синтазу (ID: A0A1T1ZJP7_CAMCO, AC: A0A1T1ZJP7). Параметры BLAST: Standart databases (nr etc.), algorithm: blastp, max target sequences: 1000 (к сожалению, первые 100 последовательностей имеют E-Value 0.00), expect threshold: 0.05, word size: 3, matrix: BLOSUM62, existence: 11, extension: 1.

Текстовая выдача программы находится тут. Множественное выравнивание гомологичных белков находится здесь.

Поиск гомологов зрелого вирусного белка в Swiss-Prot

Выбранный полипротеин:
Protein: Replicase polyprotein 1a
Organism (OS): Middle East respiratory syndrome-related coronovirus (isolated United Kingdom/H123990006/2012) (MERS-CoV) (Betacoronavirus England 1)
ID: R1A_MERS1
AC: K9N638

Зрелый белок (CHAIN):
Name: Host translation inhibitor nsp1
S/E: 1...193

Вырезанную последовательность выбранного зрелого белка можно найти тут, выдачу BLAST – тут, а множественное выравнивание этого белка с его гомологами - тут.

Исследование зависимости E-value от объёма банка

После применения фильтра по организмам список находок не изменился, BLAST обнаружил 8 гомологичных белков (выдача BLAST здесь). Для сравнения я взяла самую первую находку из списка. В первом случае (задание 2) E-value составляет 1x10-132, во втором (задание 3, поиск ограничен вирусами) – 4x10-134. . Score при этом никак не измняется,так как он не зависит от размера банка. Я ограничила поиск одним таксоном (Viruses), следовательно, он производился по части банка. Уменьшается количество доступных последовательностей – уменьшается E-value; это подтверждается усвоенной ранее информацией: E-value прямо пропорционален размеру банка.

E-value1 больше E-value2 в 25 раз. Далее приведена актуальная информауция на 15.04.2023.
Количество белков в Swiss-Prot: 569,213. Поделим это количество на 25 и получим предполагаемое число вирусных белков: 22,768 (округлено в меньшую сторону; мы проводим грубую оценку и предполагаем, что длина всех белков примерно одинакова). Теперь воспользуемся расширенным поиском UniProtKB и проверим, совпадёт ли предполагаемое число и реальное. В UniProtKB (Swiss-Prot) на данный момент находится 17,302 белка, меньше, чем мы предположили. Учитывая, насколько грубой была оценка, результаты вполне сходимы. Таким образом, вирусные белки составляют примерно 4% от всех белков Swiss-Prot (1/25 часть).