Практикум 11. Pfam - база данных семейств белковых доменов

Выбор семейства белковых доменов

Я проводила поиск по ключевому слову 'toxin', выбрав семейство N-терминальных концов ABC токсинов с достаточно большим количеством последовательностей.

Название семейства белковых доменов ABC toxin N-terminal region
ID ABC_toxin_N
AC PF20220
Общее число последовательностей (full) 396
Число последовательностей в выравнивании (seed) 31
Число белковых архитектур 51
Выбранные архитектуры Первая архитектура (125 белков) содержит 3 домена: ABC_toxin_N, Neuraminidase, TcA_TcB_BD, была выбрана как самая распространенная. Вторая архитектура содержит 2 домена (45 белков): ABC_toxin_N, TcA_TcB_BD, она была выбрана, так как, в отличие от подавляющего большинства архитектур, не содержит домен нейраминидазы (Neuraminidase).
Число белков в таксонах самого высокого ранга Домен присутствует в белках доменов Eukaryota (110 последовательностей, из классифицированных организмов исключительно настоящие грибы (Fungi)) и Bacteria (285 последовательностей). При этом у части видов отсутствует таксономическое положение после домена, однако при беглом просмотре видовые названия эукариот относятся также к настоящим грибам.
Число белков с доменом и 3D-структурой 5
HMM Дата создания профиля - 14.10.2021, число позиций - 124.

Интересно таксономическое положение организмов, обладающих белками с рассматриваемым доменом. Могу предположить, что наличие исключительно двух групп - бактерий и настоящих грибов - можно объснить горизонтальным переносом генов между ними. Это явление между грибами и бактериями неоднократно наблюдалось [1].

Карта локального сходства (dot plot) двух белков одного семейства с разной архитектурой

Ниже представлено выравнивание со стандартными параметрами (в т.ч. e-value = 0.05). Четко выделяется несколько выровненных участков, инверсий и дупликаций нет. Последний и наиболее протяженный соответствует домену TcA_TcB_BD, однако участок выравнивания превосходит его по длине примерно в 2 раза. Второй с конца протяженный участок выравнивания соответствует рассматриваемому домену, ABC_toxin_N. Также отметим, что в начале выравнивания появляются схожие участки небольшой длины.

sorry :c
Рис. 1 Парное локальное выравнивание в представлении dot plot. Здесь и далее нумерация участков из нижнего верхнего угла (первый) к правому верхнему (четвертый).

Стоит отметить, что у частей выравнивания слева направо e-value составляют 4e-12, 0.002, 1e-16, 4e-111, так что случайностью можно объяснить появление второго (975-1081 для последовательности, координаты которой отмечены на Oy) участка выравнивания. Участок 1 (717-960) содержит большое количество гэпов (28% против 9% и 14% в 3-4 участках), и, как отмечалось выше, не соответствует доменам, указанным в Pfam, поэтому можно предположить, что его появление тоже случайно.

Изменение порога e-value в большую сторону (10, 100) добавляет новые, но небольшие участки выравнивания, скорее всего, не являющиеся неслучайным результатом.

Выравнивание доменов семейства

Для выделения групп выбрала участок выравнивания 237-240. В нем в большинстве последовательностей высока консервативность аминокислотных остатков. При детальном рассмотрении групп выделяется несколько больших с соответствующими аминокислотами в данных позициях: YPEN, FPEN, WPEN (т.е. наиболее крупные - с ароматическими аминокислотами в 237 позиции), далее более мелкие группы. Интересно отметить, что найдена группа, которая не выровнена по данному участку.

Скачать выравнивание можно здесь.

Белки Uniprot с доменом из Pfam

По запросу database:(type:pfam PF20220) не найдено ни одного результата. При рассмотрении записей белков, которым соответствует определенная доменная архитектура (например, AC V5DWD2) заметим, что необходимый домен в их списке не указан. Возможно, это связано с тем, что семейство имеет статус new.

Источники:

  1. David A. Fitzpatrick, Horizontal gene transfer in fungi, FEMS Microbiology Letters, Volume 329, Issue 1, April 2012, Pages 1–8, https://doi.org/10.1111/j.1574-6968.2011.02465.x