Выравнивания и Pfam


Описание доменов белка в Pfam

В этом задании мы должны были описать страницу домена в базе данных Pfam. Результаты представлены в таблице ниже:

Таблица 1. Описание страницы домена в Pfam

Название Transposase
ID HTH_Tnp_Tc3_2
AC PF01498
Функция Транспозаза — это фермент, связывающий одноцепочечную DNA и встраивающий последнюю в геномную DNA. DNA-транспозоны кодируют транспозазу, которая позволяет транспозонам быть вырезанным из геномной DNA и встроенным в другие места. Домен содержит мотив спираль-поворот-спираль (HTH), который распознает и связывается с большой бороздкой двойной спирали DNA (на самом деле это не спираль, а винт)
Число последовательностей (full) 3992
Число последовательностей в выравнивании seed 24
Число доменных архитектур с этим доменом 142
Дружественные домены
(домены-побратимы)
DDE_3 эндонуклеазный домен
HTH (helix-turn-helix) домен
Число 3D структур доменов из разных последовательностей 2
Число белков с данным доменом в различных доменах жизни Bacteria: 40 последовательностей из 36 видов
Archaea: 0 последовательностей
Eukaryota: 3929 последовательностей из 235 видов
Дата создания HMM-профиля Sun Aug 5 05:02:09 2018
Число позиций HMM-профиля 72

Пояснение к таблице: доменом-побратимом называем домен, часто встречающийся с данным.

Анализ выравнивания из Pfam

Сначала мы выбрали небольшую выборку, пользуясь Sunburst. Таксономия следующая: Eukaryota - Metazoa - Chordata - Amphibia. Всего в выборке оказалась 31 последовательность из 3 видов. Затем мы скачали все последовательности и выровняли с помощью Muscle. Файл выравнивания можно скачать здесь. Затем мы произвели ревизию выравнивания. То есть, нашей задачей было оставить выравнивание, в котором есть хорошие вертикальные блоки, но чтобы последовательности не были почти идентичными. Затем мы посмотрели границы домена в доменных архитектурах некоторых белков в Pfam. Еще мы удалили последовательности, подозрительно отличающиеся в консервативных блоках, удалили повторяющиеся или очень похожие последовательности с помощью Remove Redundancy, удалили пустые колонки. Получившееся выравнивание сохранили в формате msf для визуализатора Genedoc. Файл почищенного выравнивания здесь. Затем в Genedoc нашли консервативный вертикальный блок, консервативный блок, включающий не все последовательности и вертикальный блок "минус блок", то есть прямоугольник в выравнивании, в котором нет оснований предполагать гомологичность фрагментов. Полученные блоки представлены в едином изображении 1.

Рис. 1. Триптих: консервативный блок, полуконсервативный блок и неконсервативный блок (слева направо)

Поиск белков с данным доменом в Pfam

В этом задании мы нашли в Uniprot все белки, содержащие данный домен. Для этого мы воспользовались поисковой командой:

database:(type:pfam PF01498)

Общее число находок составило 12068, из них в Swiss-prot: 4. Это примерно в 4 раза больше всех находок в Pfam. Excel-файл выдачи можно посмотреть тут. С помощью команды Excel:

=СЧЁТЕСЛИ(H:H;"PF13358;PF01498;")

мы посчитали число белков с такой архитектурой в Uniprot: их получилось 5360. Для сравнения, в Pfam их 1790. С помощью команд:

=СЧЁТЕСЛИ(G:G;"Eukaryota")
=СЧЁТЕСЛИ(G:G;"Bacteria")

мы посчитали, что белков с этим доменом у эукариот в Uniprot 11835 (в Pfam 3929, см. задание 1), а у бактерий 143 (в Pfam 40). Также мы попытались определить, какой домен PROSITE соответствует нашему домену Pfam, но, как выяснилось, никакой, потому что база PROSITE еще меньше по размеру.

Небольшой итог

В этом практикуме также предлагалось выполнить структурное выравнивание белков с одинаковыми доменами с помощью PDBeFold. Я честно проделал это задание на нескольких доменах, но результаты оказались настолько удручающими, что я не захотел ими делиться. Что касается сути всей работы, изложенной выше: база данных Pfam несовершенна. Она вполне точно показывает расположение доменов белков, но количество белков в ней в разы меньше, чем в том же Uniprot. Это и логично, ведь в Uniprot имеет больше источников информации - в нее попадает всё о доменах из разных баз данных.