Я проводила поиск по ключевому слову 'toxin', выбрав семейство N-терминальных концов ABC токсинов с достаточно большим количеством последовательностей.
Название семейства белковых доменов | ABC toxin N-terminal region |
ID | ABC_toxin_N |
AC | PF20220 |
Общее число последовательностей (full) | 396 |
Число последовательностей в выравнивании (seed) | 31 |
Число белковых архитектур | 51 |
Выбранные архитектуры | Первая архитектура (125 белков) содержит 3 домена: ABC_toxin_N, Neuraminidase, TcA_TcB_BD, была выбрана как самая распространенная. Вторая архитектура содержит 2 домена (45 белков): ABC_toxin_N, TcA_TcB_BD, она была выбрана, так как, в отличие от подавляющего большинства архитектур, не содержит домен нейраминидазы (Neuraminidase). |
Число белков в таксонах самого высокого ранга | Домен присутствует в белках доменов Eukaryota (110 последовательностей, из классифицированных организмов исключительно настоящие грибы (Fungi)) и Bacteria (285 последовательностей). При этом у части видов отсутствует таксономическое положение после домена, однако при беглом просмотре видовые названия эукариот относятся также к настоящим грибам. |
Число белков с доменом и 3D-структурой | 5 |
HMM | Дата создания профиля - 14.10.2021, число позиций - 124. |
Интересно таксономическое положение организмов, обладающих белками с рассматриваемым доменом. Могу предположить, что наличие исключительно двух групп - бактерий и настоящих грибов - можно объснить горизонтальным переносом генов между ними. Это явление между грибами и бактериями неоднократно наблюдалось [1].
Ниже представлено выравнивание со стандартными параметрами (в т.ч. e-value = 0.05). Четко выделяется несколько выровненных участков, инверсий и дупликаций нет. Последний и наиболее протяженный соответствует домену TcA_TcB_BD, однако участок выравнивания превосходит его по длине примерно в 2 раза. Второй с конца протяженный участок выравнивания соответствует рассматриваемому домену, ABC_toxin_N. Также отметим, что в начале выравнивания появляются схожие участки небольшой длины.
Стоит отметить, что у частей выравнивания слева направо e-value составляют 4e-12, 0.002, 1e-16, 4e-111, так что случайностью можно объяснить появление второго (975-1081 для последовательности, координаты которой отмечены на Oy) участка выравнивания. Участок 1 (717-960) содержит большое количество гэпов (28% против 9% и 14% в 3-4 участках), и, как отмечалось выше, не соответствует доменам, указанным в Pfam, поэтому можно предположить, что его появление тоже случайно.
Изменение порога e-value в большую сторону (10, 100) добавляет новые, но небольшие участки выравнивания, скорее всего, не являющиеся неслучайным результатом.
Для выделения групп выбрала участок выравнивания 237-240. В нем в большинстве последовательностей высока консервативность аминокислотных остатков. При детальном рассмотрении групп выделяется несколько больших с соответствующими аминокислотами в данных позициях: YPEN, FPEN, WPEN (т.е. наиболее крупные - с ароматическими аминокислотами в 237 позиции), далее более мелкие группы. Интересно отметить, что найдена группа, которая не выровнена по данному участку.
Скачать выравнивание можно здесь.
По запросу database:(type:pfam PF20220)
не найдено ни одного результата. При рассмотрении записей белков, которым соответствует определенная доменная архитектура (например, AC V5DWD2) заметим, что необходимый домен в их списке не указан. Возможно, это связано с тем, что семейство имеет статус new.