Составление семейства гомологов посредством PSI-BLAST
PSI-BLAST - это алгоритм, который ищет оптимальные выравнивания для группы гомологов путем итераций. Найденные гомологи используются для поиска снова, и поиск выполняется с составлением матриц PSSM (позиционныx матриц весов). Здесь вес замены аминокислотного остатка зависит от полученного множественного выравнивания гомологов.
Поиск PSI-BLAST был выполнен для белка с ID Q05121. Это белок с названием Early 39 kDa protein, принадлежащий ДНК содержащему вирусу OpMNPV. Для составления семейства гомологов этого белка было выполнено три итерации PSI-BLAST. Полная стабилизация произошла уже после второй итерации. Результат представлен в таблице 1.
Номер итерации | Число находок выше порога (0,005) | Идентификатор худшей находки выше порога | E-value этой находки | Идентификатор лучшей находки ниже порога | E-value этой находки |
1 | 37 | YP_001036413.1 | 1.00E-21 | WP_008200245.1 | 0.41 |
2 | 37 | NP_037880.1 | 3.00E-59 | YP_003422392.1 | 0.014 |
3 | 37 | NP_203587.1 | 9.00E-60 | YP_003422392.1 | 0.015 |
Выравнивание полученного семейства гомологов
После третьей итерации было построено множественное выравнивание полученного семейства гомологов белка Early 39 kDa protein с ID Q05121. Первое выравнивание было построено по всем последовательностям, полученным после третьей итерации. Его изображение представлено на рисунке 1, проект JalView можно загрузить по ссылке. После исключения тех гомолов, которые имели достаточно большие участки со вставками, было сделано второе выравнивание, изображение которого можно увидеть на рисунке 2, а проект загрузить по ссылке. Как видно на рисунках, последовательности белков полученного семейства имеют высоко гомологичные учасики, и все эти белки принадлежат вирусам. Таким образом, можно заключить, что задача выделения семейства гомологов белка с ID Q05121 выполнена.
Рис.1. Множественное выравнивание смейства гомологов белка Early 39 kDa protein с ID Q05121.
Рис.2. Отредактированное множественное выравнивание смейства гомологов белка Early 39 kDa protein с ID Q05121.