Восстановление предкового состояния доменной архитектуры

Часть 1. Выбрать объекты изучения и построить выравнивание

NAT (N-ацетилтрасферазный домен) (AC в Pfam PF04768) участвует в катализе начальных этапов синтеза аргинина. Он найден в 931 белковой последовательности, содержится в 18 доменных архитектурах. Будем смотреть на две архитектуры (см. рисунок 1):

Содержит домен-киназу аминокислот (AA_kinase), NAT-домен и семиальдегид дегидрогеназу, НАД-связывающий домен (Semialdhyde_dh). Встречается в 180 белках
Содержит AA_kinase и NAT-домен. 128 белков

Рис. 1. Примеры белков, содержащие архитектуры.

В качестве таксона верхнего порядка я выбрала Cellulata, подтаксонами стали Fungi и Metazoa.

Excel файлы: файл со сводкой по всем белкам, имеющим домен NAT, файл с выбранными мной последовательностями для дальнейшней работы. Получены при помощи скриптов swisspfam-to-xls.py, uniprot-to-taxonomy.py, Uniprot ID retriever.

Затем получили выравнивание всех последовательностей из данного семейства (ссылка на проект) и выбранных последовательностей (ссылка на проект). Раскраска BLOSUM62, Above identity threshold 70%, убраны пустые колонки. В выравнивании есть сильно консервативные позиции, они выравнены и окрашены, поэтому можно судить о правильности выравнивания. Три последовательности были совсем неправильно выравнены или имели совсем непохожие последовательности. Они были убраны.

Часть 2. Построение филогенетического дерева домена

В листьях дерева на рисунке 2 приняты такие обозначения: цифры -- номера архитектур в соответствии с рисунком 1, F - Fungi, M - Metazoa. B - Bacteria (этот таксон был взят на всякий случай, для проверки).

Скобочная структура дерева доступна по ссылке. Дерево построено в MEGA алгоритмом Maximum-Likelihood.

Рис. 2. Дерево выравнивания выбранных белков 1 и 2 архитектур. Разными цветами отмечены хорошие подсемейства.

Часть 3. Построить профиль подсемейства и охарактеризовать качество его работы

Для работы было выбрано подсемейство, обозначенное рыжим цветом на рисунке 2. Для построения профиля выравнивания использовали пакет HMMER. Откалиброванный профиль м можно посмотреть по ссылке.

Затем профиль применили к fasta-файлу, содержащему все белки с доменом NAT. Информация, которую программа дала на выход, содержится в файле E-value находок принимают значение от 1.4e-09 до 2.3.

Для того, чтобы определить порог E-value, с которого следует отбирать последовательности, была построена ROC-кривая (рис. 3).

Excel-файл с рассчетом данных для ROC-кривой

Рис. 3. ROC-кривая. На оси Y чувствительность, на оси X специфичность.

Выбран порог E-value 5.3e-09

Таблица 1. Результаты при пороге E-value 5.3e-09

На самом деле	принадлежит подсемейству	не принадлежит	сумма
Проходят порог	19	217	236
Не проходят порог	8	352	360
Cумма	27	569

Вывод

По дереву последовательности отлично разделились по по таксонам Fungi, Metazoa и Bacteria (с некоторыми незначительными погрешностями). Однако по архитектурам разделения нет. Это может говорить о том, что домен NAT эволюционировал именно по таксонам. ROC-кривая показала, что построенный профиль подошел для нахождения белков, принадлежащих подсемейству. Но все же есть множество белков, проходящих порог, но не принадлежащих подсемейству.

← Назад к четвертому семестру