ФББ 2013-2014
BLAST. PSI-BLAST.
PSI-BLAST (Position Specific Iterative BLAST) - это программа на сервере NCBI, алгоритм которой позволяет находить отдалённые гомологи аминокислотной последовательности. Делает она это за счёт некоторого количества итераций. Первая итерация - по сути обычный BLAST поиск. По множественному выравниванию находок строится PSSM - матрица, в которой для каждой позиции указывается наиболее вероятная аминокислота. При последующих итерациях PSI-BLAST выравнивает находки относительно построенного ранее множественного выравнивания с использованием этой матрицы.
Для выполнения задания я взяла белок с AC Q3SXS7 (идентификатор в RefSeq - XP_006521491.1). Это белок домовой мыши, выполняющий много функций в иммунной системе - он стимулирует некроз опухолей. Находится он на внешней стороне мембраны, но имеет интегрально расположенную часть. Полную информацию о белке можно получить, ознакомившись с его профилем в БД Uniprot.
Рис.1. Информация о доменной структуре исходного белка.
При выполнении первой итерации для лучших находок был поставлен порог e-value равный 0,005. Результатом стало 95 лучших находок и 25 находок с e-value ниже порога. Стоит отметить, что среди лучших находок большинство имеют статус PREDICTED и принадлежат к суперсемейству рецепторов фактора некроза опухоли (tumor necrosis factor receptor). Более подробные сведения о первой и последующих итерациях - в таблице 1.
Табл.1. Результаты итераций.
Номер итерации | Число находок выше порога (0,005) | Идентификатор худшей находки выше порога | E-value этой находки | Идентификатор лучшей находки ниже порога | E-value этой находки |
1 | 95 | XP_005422009.1 | 0,003 | XP_004481317.1 | 0.020 |
2 | 99 | 1OQE_K | 0.004 | CBK25084.2 | 0.065 |
3 | 162 | 2HFG_R | 1e-04 | XP_005871793.1 | 0.018 |
4 | 207 | XP_005054103.1 | 1e-04 | 1OQE_K | 0.079 |
5 | 211 | XP_003221050.1 | 0.002 | 2GKW_B | 0.008 |
Для составления PSSM и проведения второй итерации я выбрала те результаты первой итерации, которые содержали в Description "PREDICTED: tumor necrosis factor receptor superfamily member", "BAFF receptor", также находки с хорошим e-value. При выборе я не ориентировалась на покрытие и совпадение остатков, потому что функциональный домен довольно короткий.
При второй итерации появились новые находки, которые раньше не подходили по e-value. Для последующей итерации я исключила белки, которые имели в описании "LOW QUALITY PROTEIN" или слишком большое e-value.
Результатом третьей итерации стало много новых находок, я снова отбросила находки с характеристикой "LOW QUALITY PROTEIN". Также я стала отбрасывать некоторые "uncharacterized protein". Всего я провела 5 итераций, список лучших находок стабилизовался только в его верхней части. Дальше я решила не продолжать итерации из-за ухудшения e-value худшей находки выше порога.
В итоговое выравнивание я включила не все найденные последовательности, а только содержавшие в описании "tumor necrosis factor receptor". Проект Jalview с множественным выравниванием и раскраской ClustalX - здесь. Также общий вид проекта представлен на рисунке 2.
Рис.2. Общий вид проекта Jalview.