BLAST

1. Гомологи моего белка(A0A2S1P664_9ENTR) в Swiss-Prot

Для поиска гомологичных белков для белка с ID = A0A2S1P664_9ENTR я использовала Protein BLAST.
Основные параметры:


Результат BLAST - 71 белок. Подробнее о результате работы программы: текстовая выдача.
Я выбрала 7 белков: A0A5R8T042.1, P28585.2, P74841.1, P80545.1, P22390.2, P80298.1, P0A9Z8.1.
Был создан файл с AC выбранный белков.
Далее создан файл с fasta этих белков, куда я добавила fasta моего белка(ID=A0A2S1P664_9ENTR) и запущено множественное выравнивание muscle, которое затем было загружено в Jalview:
seqret @id_hom.txt hom.fasta
muscle -align hom.fasta -output hom_alignment.fasta

В процессе анализа выравнивания стало понятно, что белок P0A9Z8 не гомологичен моему. Этому есть логическое объяснение, т.к. этот белок имеет самое большое E-value из рассматриваемых: 8e-58, что более чем на 50 порядков превосходит E-value остальных рассматриваемых белков. Последовательность данного белка (P0A9Z8) была удалена из выравнивания ввиду его негомологичности, а оставшиеся белки я выровняла еще раз, используя встроенное в Jalview выравнивание "Muscle with Defaults" (я выровняла их заново т.к. были участки с гэпами, которые создавались специально для удаленной последовательности (гэп во всех 7 белках)). Остальные белки скорее всего гомологичны моему. У них есть много гомологичных участков достаточно большой длины на протяжении всех последовательностей, за исключением начальных и конечных нескольких десятков аминокислот. На пример: 48-83, 104-119, 126-144, 166-190, 210-224, 236-258, 262-273.
Подробнее о выравнивании: проект в Jalview

2. Гомологи зрелого вирусного белка, вырезанного из полипротеина в Swiss-Prot

Запрос в UniProtKB: (taxonomy_id:10239) AND (protein_name:polyprotein) AND (reviewed:true)
Я выбрала вирус:


Я выбрала цепь — Capsid protein p30, координаты которой: 197..455
Скачала последовательностельность выбранной цепи в формате fasta: seqret 'sw:GAG_KORV[197:455]' p30.fasta
Изменив название fasta получаем файл — p30.fasta
Запускаем BLAST по базе данных UniProtKB/Swiss-Prot(swissprot), остальные параметры по умолчанию — 54 находки — текстовая выдача.
Я выбрала 7 белков, помимо исследуемого: Q9TTC1.2, P21416.3, P03330.4, P03341.4, P03340.2, P27460.3, P26806.3.
Далее проделываем такие же операции, какие были сделаны при поиске гомологичных белков в предыдущем пункте.
Получаем — проект выравнивания. Все выбранные белки оказываются гомологичными для рассматриваемого белка по всей длине — видно, что большой процент схожести и идентичности.

3. Исследование зависимости E-value от объёма банка

Был проведен BLAST аналогичный BLAST из предыдущего пункта, но с осуществлением поиска только по таксону Viruses. Список находок при этом не поменялся, все также 54 белка — текстовая выдача.
Для оценки доли вирусных белков в Swiss-Prot необходимо сравнить изменение E-value у находок с фильтром по таксону и без него (т.к. остальные параметры — K, λ, m, S — для одной и той же находки не поменялись с изменением размера базы, по которой проводится поиск).
Поэтому E-value_2/E-value_1 = n2/n1, где E-value_2 — E-value находки по таксону Viruses, E-value_1 — E-value находки по всей Swiss-Prot, n2 — размер базы по таксону Viruses, n1 — размер Swiss-Prot.

AC находки E-value_1 E-value_2 n2/n1
Q9TTC1 2e-175 1e-176 0.05
P03341 4e-104 2e-105 0.05
P26806 2e-96 8e-98 0.04
Рассмотрев несколько находок понимаем, что доля вирусных белков в Swiss-Prot примерно 4-5%.