Селифонов (slfn) учебный сайт; Обо мне

ПРАКТИКУМ 11

1, 2. Выбор и описание семейства доменов

Я решил работать с семейством доменов MFS_MOT1 (код доступа PF16983). Эти домены играют ключевую роль в работе транспортеров, отвечающих за перенос молибдена (в виде молибдат-аниона) через цитоплазматическую мембрану у эукариот. Этот элемент, хотя и содержится в живых организмах в крайне малых количествах, входит в состав активных центров ферментов, участвующих в таких процессах, как метаболизм азота, биосинтез фитогормонов у растений, метаболизм пуринов и детоксикация сульфитов.

Выравнивание full белков, содержащих домены этого семейства, содержит 2386 последовательностей, тогда как в выравнивании seed их 151. Белки с доменами семейства MFS_MOT1 можно поделить на группы в соответствии с 11 различными архитектурами. При этом достаточно хорошо представлены лишь 2 из них: MFS_MOT1 x 2 (1141 белок) и MFS_MOT1 (77 белков). Можно заметить, что для большинства белков (кроме 77 с архитектурой MFS_MOT1) характерно наличие двух доменов семейства MFS_MOT, разделенных несколькими трансмембранными участками. Ни для одного белка, содержащего домены из исследуемого семейства, неизвестна 3D-структура (хотя для некоторых из них она была предсказана, например, UniProt ID MOT1_ARATH). Обсуждаемые белки встречаются у представителей всех 3 доменов: Archaea (91 последовательность), Bacteria (165) и Eukaryota (975). HMM профиль выравнивания был создан 21 октября 2021 года и имеет 111 позиций.

Ссылка на HMM-профиль

3. Карта локального сходства белков с разной доменной архитектурой

Для выполнения задания я выбрал белок MOT1_ARATH с доменний архитектурой MFS_MOT1 x 2 и белок A0A364NGX4_9PLEO с архитектурой MFS_MOT1. В парное локальное выравнивание вошли аминокислотные остатки с 14 по 318 первого белка (первый с N-конца домен семейства MFS_MOT1) и остатки с 9 по 271 второго, на его основании была построена карта локального сходства (Рис. 1). По горизонтальной оси отложены остатки белка MOT1_ARATH, а по вертикальной - белка A0A364NGX4_9PLEO. "Разрывы" в линии на карте соответствуют инделям в выровненной последовательности второго. Судя по всему, в ходе эволюции произошло несколько инсерций в гене белка MOT1_ARATH и/или несколько делеций в последовательности A0A364NGX4_9PLEO (оба изменения, по сути, ведут к одному результату). Для определения конкретных событий необходимо также провести анализ предковой последовательности, включив ее в выравнивание.

карта
Рис. 1. Карта локального сходства белков MOT1_ARATH и A0A364NGX4_9PLEO

4. Выделение подгрупп доменов семейства MFS_MOT1

Я скачал выравнивание seed (151 последовательность) по АС (PF16983) через Jalview и открыл его. Чтобы уменьшить число строк, я удалил избыточные последовательности (совпадающие на 80%). В выравнивании их осталось 109. Для выделения групп было построено филогенетическое дерево, отражающее эволюцию последовательностей. В результате, они разбились на 4 явные и достаточно крупные группы (далее - группы 1, 2, 3 и 4). Только 3 последовательности не вошли ни в одну из них.

Ссылка на выравнивание

По итоговому выравниванию видно, что домены группы 1 похожи на домены группы 2, а последовательности группы 3 - на таковые из группы 4. Я решил сравнить первые две группы, противопоставив их оставшимся.

Домены групп 1 и 2 похожи друг на друга по количеству и положению гэпов в выравнивании, однако в их последовательностях есть несколько заметных отличий. Например, в доменах первой группы в позиции 14 помимо лейцина и изолейцина достаточно часто встречается треонин. В колонках 15 и 17 у них стоят очень консервативные остатки лейцина и серина, гомологичные соответственно глицину и аланину у большинства доменов группы 2. Более полный список различий я оформил в виде таблицы (Табл. 1).

Колонка: 14 15 17 21 43 82 85 114 123 134
Группа 1 T, L, I L S V, ... -, P, ... V, P, G A, ... Q, H S, T, ... K, L
Группа 2 L, I, ... G, T, ... A, S T, ... V, ... P, ... G, A H, ... T, S, G ...
Табл. 1. Различия в последовательностях доменов групп 1 и 2.

Различия между парами групп гораздо глубже. Например, консервативному остатку глицина в позиции 9 доменов групп 3 и 4 соответствуют пролин и другие аминокислоты у белков первых двух групп, а остаткам аспартата и пролина в колонках 9 и 16 гомологичны остатки глутамина и аспарагина.

Более того, эти различия состоят как в гомологичных аминокислотных остатках, так и в распределении инделей. В частности, в большинстве последовательностей групп 3 и 4 нет остатков, гомологичных таковым из колонок 12, 31 - 37, 40 - 43, 53, 105 - 107 и 145 - 146 в группах 1 и 2. При этом обратное верно для колонок 54, 56, 57, 90 - 94, 112, 118 и 119.

5. Таблица со всеми белками из Uniprot с доменом семейства MFS_MOT1

Чтобы найти в UniProt все белки с доменами из семейства MFS_MOT1, я использовал данный запрос:

database:(type:pfam pf16983)

Различия в систематике организмов, имеющих такие белки, имеются уже на уровне домена (superkingdom).

Ссылка на таблицу Excel