Датасет, по которому производился поиск — UniProtKB/Swiss-Prot(swissprot)
Общие параметры:
Максимум находок — 100
Пороговое значение E-value — 0.05
Длина слова/якоря — 5
Матрица — BLOSUM62
Шраф за открытие гэпа — 11, за продолжение — 1
Все остальные параметры оставлены по умолчанию
Результат BLAST - 71 белок. Подробнее о результате работы программы: текстовая выдача.
Я выбрала 7 белков: A0A5R8T042.1, P28585.2, P74841.1, P80545.1, P22390.2, P80298.1, P0A9Z8.1.
Был создан файл с AC выбранный белков.
Далее создан файл с fasta этих белков, куда я добавила fasta моего белка(ID=A0A2S1P664_9ENTR) и запущено множественное выравнивание muscle, которое затем было загружено в Jalview:
seqret @id_hom.txt hom.fasta muscle -align hom.fasta -output hom_alignment.fasta В процессе анализа выравнивания стало понятно, что белок P0A9Z8 не гомологичен моему. Этому есть логическое объяснение, т.к. этот белок имеет самое большое E-value из рассматриваемых: 8e-58, что более чем на 50 порядков превосходит E-value остальных рассматриваемых белков.
Последовательность данного белка (P0A9Z8) была удалена из выравнивания ввиду его негомологичности, а оставшиеся белки я выровняла еще раз, используя встроенное в Jalview выравнивание "Muscle with Defaults" (я выровняла их заново т.к. были участки с гэпами, которые создавались специально для удаленной последовательности (гэп во всех 7 белках)).
Остальные белки скорее всего гомологичны моему. У них есть много гомологичных участков достаточно большой длины на протяжении всех последовательностей, за исключением начальных и конечных нескольких десятков аминокислот. На пример: 48-83, 104-119, 126-144, 166-190, 210-224, 236-258, 262-273.
Подробнее о выравнивании: проект в Jalview
2. Гомологи зрелого вирусного белка, вырезанного из полипротеина в Swiss-Prot
Запрос в UniProtKB: (taxonomy_id:10239) AND (protein_name:polyprotein) AND (reviewed:true) Я выбрала вирус:
ID — GAG_KORV
AC — Q9TTC2
Название — Koala retrovirus (KoRV)
Я выбрала цепь — Capsid protein p30, координаты которой: 197..455
Скачала последовательностельность выбранной цепи в формате fasta:
seqret 'sw:GAG_KORV[197:455]' p30.fasta Изменив название fasta получаем файл — p30.fasta Запускаем BLAST по базе данных UniProtKB/Swiss-Prot(swissprot), остальные параметры по умолчанию — 54 находки — текстовая выдача.
Я выбрала 7 белков, помимо исследуемого: Q9TTC1.2, P21416.3, P03330.4, P03341.4, P03340.2, P27460.3, P26806.3.
Далее проделываем такие же операции, какие были сделаны при поиске гомологичных белков в предыдущем пункте.
Получаем — проект выравнивания. Все выбранные белки оказываются гомологичными для рассматриваемого белка по всей длине — видно, что большой процент схожести и идентичности.
3. Исследование зависимости E-value от объёма банка
Был проведен BLAST аналогичный BLAST из предыдущего пункта, но с осуществлением поиска только по таксону Viruses. Список находок при этом не поменялся, все также 54 белка — текстовая выдача.
Для оценки доли вирусных белков в Swiss-Prot необходимо сравнить изменение E-value у находок с фильтром по таксону и без него (т.к. остальные параметры — K, λ, m, S — для одной и той же находки не поменялись с изменением размера базы, по которой проводится поиск).
Поэтому E-value_2/E-value_1 = n2/n1, где E-value_2 — E-value находки по таксону Viruses, E-value_1 — E-value находки по всей Swiss-Prot, n2 — размер базы по таксону Viruses, n1 — размер Swiss-Prot.
AC находки
E-value_1
E-value_2
n2/n1
Q9TTC1
2e-175
1e-176
0.05
P03341
4e-104
2e-105
0.05
P26806
2e-96
8e-98
0.04
Рассмотрев несколько находок понимаем, что доля вирусных белков в Swiss-Prot примерно 4-5%.