Предсказания парных выравниваний

BLAST. PSI-BLAST.

PSI-BLAST (Position Specific Iterative BLAST) - это программа на сервере NCBI, алгоритм которой позволяет находить отдалённые гомологи аминокислотной последовательности. Делает она это за счёт некоторого количества итераций. Первая итерация - по сути обычный BLAST поиск. По множественному выравниванию находок строится PSSM - матрица, в которой для каждой позиции указывается наиболее вероятная аминокислота. При последующих итерациях PSI-BLAST выравнивает находки относительно построенного ранее множественного выравнивания с использованием этой матрицы.

Для выполнения задания я взяла белок с AC Q3SXS7 (идентификатор в RefSeq - XP_006521491.1). Это белок домовой мыши, выполняющий много функций в иммунной системе - он стимулирует некроз опухолей. Находится он на внешней стороне мембраны, но имеет интегрально расположенную часть. Полную информацию о белке можно получить, ознакомившись с его профилем в БД Uniprot.

Рис.1. Информация о доменной структуре исходного белка.

При выполнении первой итерации для лучших находок был поставлен порог e-value равный 0,005. Результатом стало 95 лучших находок и 25 находок с e-value ниже порога. Стоит отметить, что среди лучших находок большинство имеют статус PREDICTED и принадлежат к суперсемейству рецепторов фактора некроза опухоли (tumor necrosis factor receptor). Более подробные сведения о первой и последующих итерациях - в таблице 1.

Табл.1. Результаты итераций.

Номер итерации	Число находок выше порога (0,005)	Идентификатор худшей находки выше порога	E-value этой находки	Идентификатор лучшей находки ниже порога	E-value этой находки
1	95	XP_005422009.1	0,003	XP_004481317.1	0.020
2	99	1OQE_K	0.004	CBK25084.2	0.065
3	162	2HFG_R	1e-04	XP_005871793.1	0.018
4	207	XP_005054103.1	1e-04	1OQE_K	0.079
5	211	XP_003221050.1	0.002	2GKW_B	0.008

Для составления PSSM и проведения второй итерации я выбрала те результаты первой итерации, которые содержали в Description "PREDICTED: tumor necrosis factor receptor superfamily member", "BAFF receptor", также находки с хорошим e-value. При выборе я не ориентировалась на покрытие и совпадение остатков, потому что функциональный домен довольно короткий.

При второй итерации появились новые находки, которые раньше не подходили по e-value. Для последующей итерации я исключила белки, которые имели в описании "LOW QUALITY PROTEIN" или слишком большое e-value.

Результатом третьей итерации стало много новых находок, я снова отбросила находки с характеристикой "LOW QUALITY PROTEIN". Также я стала отбрасывать некоторые "uncharacterized protein". Всего я провела 5 итераций, список лучших находок стабилизовался только в его верхней части. Дальше я решила не продолжать итерации из-за ухудшения e-value худшей находки выше порога.

В итоговое выравнивание я включила не все найденные последовательности, а только содержавшие в описании "tumor necrosis factor receptor". Проект Jalview с множественным выравниванием и раскраской ClustalX - здесь. Также общий вид проекта представлен на рисунке 2.

Рис.2. Общий вид проекта Jalview.