Чтобы найти предполагаемых гомологов белка стрептолизина О (AC: Q53957), был произведен поиск с помощью Protein Blast на сайте NCBI. В окно "Enter query sequence" я указал Uniprot AC исследуемого белка. Также я отметил, чтобы найденные белки были из базы данных Swiss-Prot. Другие параметры были поставлены по умолчанию. Файл с выдачей.
Поиск выдал 18 предполагаемых гомологов белка. Для выравнивания изначально было отобрано 6 белков с наименьшим E-value (менее 9e-134) для наибольшей достоверности результатов. Однако в связи с тем, что в выдаче BLAST оказались практически идентичные белки (например, несколько видов листериолизинов бактерии Listeria monocytogenes и пневмолизинов), было решено отобрать по одной записи из каждого вида цитолизинов. Выбранные белки: Seeligeriolysin (P31830), Pneumolysin (Q04IN8), Listeriolysin O (B8DGM3), Ivanolysin (P31831). Я скачал последовательности этих четырех белков в формате Fasta и провел множественное выравнивание в программе Jalview с помощью алгоритма Muscle with defaults. Здесь же выравнивание было визуализировано.
Белки выровнялись довольно хорошо: обнаруживается достаточно большое количество общих участков последовательностей; максимальное число инделей, встреченное в последовательности — 2. В связи с этим можно сделать вывод о гомологичности данных белков.
Для того, чтобы найти все возможные полипротеины вирусов, в UniprotKB был составлен следующий запрос: (taxonomy_id:10239) AND (protein_name:polyprotein). Поиск выдал 553260 результатов. Для дальнейшего анализа был выбран Pol polyprotein (ID: POL_CAEVC, AC: P33459) из Caprine arthritis encephalitis virus (strain Cork) (CAEV-Co). Я решил выбрать белок интегразу (Integrase, координаты в полипротеине: 866..1109). FASTA-файл с выделенным вирусным белком с помощью EMBOSS. Параметры для BLAST остались теми же, которые я использовал для прошлого белка, только максимальное количество результатов было поставлено 1000. Поиск выдал 108 результатов.
Файл с выдачей. Для множественного выравнивания я выбрал белки, имеющие значение E-value ниже 1e-35. Все они оказались интегразами различных ретровирусов. Так как BLAST нашел именно вирусные полипротеины, ненужные столбцы левее N-конца и правее C-конца были удалены. Множественное выравнивание было проведено в программе Jalview с помощью алгоритма Muscle with defaults. Здесь же выравнивание было визуализировано.
Файл с выравниванием. Из данного выравнивания можно сделать вывод о гомологичности данных белков по всей длине. В выравнивании прослеживаются большое количество консервативных участков разной протяженности.
Как известно, E-value можно рассчитать по формуле Kmn·e^(-λS). Я провел повторный поиск гомологов исследуемого полипротеина в BLAST с указанием в поле Organism Vurises. Остальные параметры оставил такими же. Поиск выдал 98 белков (по предыдущему поиску было найдено 108 записей).
Файл с выдачей. Как оказывается, BLAST по запросу без указания Viruses вывел белки из Homo sapines и Mus musculus. Однако белки, которые были получены у человека, на самом деле являются белками Endogenous retrovirus group K member 11, которые на самом деле являются вирусными белками. Значение E-value белка P11204 по предыдущему поиску составляло 3e-38, по текущему запросу — 1e-39. Чтобы оценить количество вирусных белков в Swiss-Prot, можно просто поделить значение E-value с запросом Viruses на E-value без данного параметра, так как K, m, λ и S являются константами (изменяется только размер баз данных). Поэтому у нас получится отношение размеров двух баз данных, которое и является процентом содержания всех вирусных белков в Swiss-Prot. 1e-39/3e-38 = 0,033. Таким образом, вирусные белки составляют 3,3% от всех белков в Swiss-prot.