Практикум 13. Домены белков, Pfam

В данном практикуме при помощи Pfam и UniProt была получена информация о белковом домене под названием 2Fe-2S iron-sulfur cluster binding domain, а также построено выравнивание последовательностей белков с этим доменом, принадлежащих представителям определённой таксономической группы.

Данные о 2Fe-2S iron-sulfur cluster binding domain, доступные в Pfam

Ссылка на страницу домена в Pfam.

Выбранный домен (ID: Fer2, AC: PF00111) выполняет функцию связывания 2Fe-2S железосерного кластера, который играет роль в процессе переноса электронов. Для этого семейства доменов построено выравнивание, в которое входят 39 911 последовательностей; при этом в seed-выравнивание входят 206 последовательностей.

Этот домен найден в составе 339 различных доменных архитектур. Вместе с ним часто встречаются Oxidoreductase NAD-binding domain (ID: NAD_binding_1) и Oxidoreductase FAD-binding domain (ID: FAD_binding_6); например, в следующих архитектурах:
FAD_binding_6, NAD_binding_1, Fer2
Fer2, FAD_binding_6, NAD_binding_1
Putative_PNPOx, FAD_binding_6, NAD_binding_1, Fer2

Для 2Fe-2S iron-sulfur cluster binding domain известно 66 3D-структур из различных белков.

Из всех белков с данным доменом 34 299 принадлежат представителям суперцарства Bacteria, 800 - Archaea, 4 713 - Eukaryota.

HMM-профиль данного домена, включающий 78 позиций, был создан в феврале 2015 года.

Анализ выравнивания последовательностей белков, содержащих данный домен

Для построения множественного выравнивания были выбраны белки бактерий из класса Tissierellia (тип Firmicutes); всего 63 последовательности из 17 видов. Далее fasta-файл с этими последовательностями был получен и импортирован в Jalview, после чего при помощи программы muscle, вызванной из Jalview, для них было построено выравнивание. С результатом можно ознакомиться здесь, а также на рисунке 1.

Рисунок 1. Общий вид исходного выравнивания (до ревизии)

Далее выранивание было отредактировано: убраны слишком похожие последовательности (Edit -> Remove Redundancy, порог - 85%), исключены наиболее выделяющиеся - например, не имеющие консервативных остатков в крупных консервативных блоках, существенно отличающиеся по длине. Обработанная версия выравнивания (ссылка на проект) отображена на рисунке 2.

Рисунок 2. Отредактированное выравнивание (после ревизии)

После ревизии в выравнивании был найден невертикальный консервативный блок (включающий не все последовательности), а также оно было импортировано в GeneDoc с целью более наглядной демонстрации вертикального консервативного (включающего все последовательности) и минус- (скорее всего, не имеющего гомологичных позиций) блоков. На рисунках 3 - 5 представлены найденные блоки.

Рисунок 3. Вертикальный консервативный блок (GeneDoc, 515 - 526)
Рисунок 4. Консервативный блок, включающий часть последовательностей (Jalview, 497 - 507)
Рисунок 5. Минус-блок (GeneDoc, 490 - 496)

Поиск белков с 2Fe-2S iron-sulfur cluster binding domain в UniProt

Текст запроса:
database:(type:pfam pf00111)

Было найдено 170 965 белков; из них 334 - в Swiss-Prot, 170 631 - в TrEMBL. Далее необходимая информация о результатах поиска была получена в виде Excel-таблицы, после чего при помощи функции COUNTIF было подсчитано количество белков с доменной архитектурой Fer2, Fer2_2, а также белков из бактерий, архей и эукариот (ссылка на Excel-файл).

Домен в PROSITE, соответствующий PF00111 в Pfam, - PS51085.

Сравним данные, полученные из Pfam и UniProt (см. таблицу 1).

Таблица 1. Различия между данными Pfam и UniProt
Источник Кол-во белков с архитектурой
Fer2, Fer2_2
Кол-во белков из Bacteria Кол-во белков из Archaea Кол-во белков из Eukaryota
Pfam 10345 34299 800 4713
UniProt 47800 156218 3322 10140

Можно сделать вывод, что в UniProt содержится намного (более чем в 4 раза) больше последовательностей, содержащих домен, чем в Pfam.