ФББ 2013-2014

BLAST. PSI-BLAST.

PSI-BLAST (Position Specific Iterative BLAST) - это программа на сервере NCBI, алгоритм которой позволяет находить отдалённые гомологи аминокислотной последовательности. Делает она это за счёт некоторого количества итераций. Первая итерация - по сути обычный BLAST поиск. По множественному выравниванию находок строится PSSM - матрица, в которой для каждой позиции указывается наиболее вероятная аминокислота. При последующих итерациях PSI-BLAST выравнивает находки относительно построенного ранее множественного выравнивания с использованием этой матрицы.

Для выполнения задания я взяла белок с AC Q3SXS7 (идентификатор в RefSeq - XP_006521491.1). Это белок домовой мыши, выполняющий много функций в иммунной системе - он стимулирует некроз опухолей. Находится он на внешней стороне мембраны, но имеет интегрально расположенную часть. Полную информацию о белке можно получить, ознакомившись с его профилем в БД Uniprot.

Рис.1. Информация о доменной структуре исходного белка.

При выполнении первой итерации для лучших находок был поставлен порог e-value равный 0,005. Результатом стало 95 лучших находок и 25 находок с e-value ниже порога. Стоит отметить, что среди лучших находок большинство имеют статус PREDICTED и принадлежат к суперсемейству рецепторов фактора некроза опухоли (tumor necrosis factor receptor). Более подробные сведения о первой и последующих итерациях - в таблице 1.

Табл.1. Результаты итераций.

Номер итерации Число находок выше порога (0,005) Идентификатор худшей находки выше порога E-value этой находки Идентификатор лучшей находки ниже порога E-value этой находки
1 95 XP_005422009.1 0,003 XP_004481317.1 0.020
2 99 1OQE_K 0.004 CBK25084.2 0.065
3 162 2HFG_R 1e-04 XP_005871793.1 0.018
4 207 XP_005054103.1 1e-04 1OQE_K 0.079
5 211 XP_003221050.1 0.002 2GKW_B 0.008

Для составления PSSM и проведения второй итерации я выбрала те результаты первой итерации, которые содержали в Description "PREDICTED: tumor necrosis factor receptor superfamily member", "BAFF receptor", также находки с хорошим e-value. При выборе я не ориентировалась на покрытие и совпадение остатков, потому что функциональный домен довольно короткий.

При второй итерации появились новые находки, которые раньше не подходили по e-value. Для последующей итерации я исключила белки, которые имели в описании "LOW QUALITY PROTEIN" или слишком большое e-value.

Результатом третьей итерации стало много новых находок, я снова отбросила находки с характеристикой "LOW QUALITY PROTEIN". Также я стала отбрасывать некоторые "uncharacterized protein". Всего я провела 5 итераций, список лучших находок стабилизовался только в его верхней части. Дальше я решила не продолжать итерации из-за ухудшения e-value худшей находки выше порога.

В итоговое выравнивание я включила не все найденные последовательности, а только содержавшие в описании "tumor necrosis factor receptor". Проект Jalview с множественным выравниванием и раскраской ClustalX - здесь. Также общий вид проекта представлен на рисунке 2.

Рис.2. Общий вид проекта Jalview.