В этом задании мы должны были описать страницу домена в базе данных Pfam. Результаты представлены в таблице ниже:
Таблица 1. Описание страницы домена в Pfam
Название | Transposase |
ID | HTH_Tnp_Tc3_2 |
AC | PF01498 |
Функция | Транспозаза — это фермент, связывающий одноцепочечную DNA и встраивающий последнюю в геномную DNA. DNA-транспозоны кодируют транспозазу, которая позволяет транспозонам быть вырезанным из геномной DNA и встроенным в другие места. Домен содержит мотив спираль-поворот-спираль (HTH), который распознает и связывается с большой бороздкой двойной спирали DNA (на самом деле это не спираль, а винт) |
Число последовательностей (full) | 3992 |
Число последовательностей в выравнивании seed | 24 |
Число доменных архитектур с этим доменом | 142 |
Дружественные домены (домены-побратимы) |
DDE_3 эндонуклеазный домен HTH (helix-turn-helix) домен |
Число 3D структур доменов из разных последовательностей | 2 |
Число белков с данным доменом в различных доменах жизни | Bacteria: 40 последовательностей из 36 видов Archaea: 0 последовательностей Eukaryota: 3929 последовательностей из 235 видов |
Дата создания HMM-профиля | Sun Aug 5 05:02:09 2018 |
Число позиций HMM-профиля | 72 |
Пояснение к таблице: доменом-побратимом называем домен, часто встречающийся с данным.
Сначала мы выбрали небольшую выборку, пользуясь Sunburst. Таксономия следующая: Eukaryota - Metazoa - Chordata - Amphibia. Всего в выборке оказалась 31 последовательность из 3 видов. Затем мы скачали все последовательности и выровняли с помощью Muscle. Файл выравнивания можно скачать здесь. Затем мы произвели ревизию выравнивания. То есть, нашей задачей было оставить выравнивание, в котором есть хорошие вертикальные блоки, но чтобы последовательности не были почти идентичными. Затем мы посмотрели границы домена в доменных архитектурах некоторых белков в Pfam. Еще мы удалили последовательности, подозрительно отличающиеся в консервативных блоках, удалили повторяющиеся или очень похожие последовательности с помощью Remove Redundancy, удалили пустые колонки. Получившееся выравнивание сохранили в формате msf для визуализатора Genedoc. Файл почищенного выравнивания здесь. Затем в Genedoc нашли консервативный вертикальный блок, консервативный блок, включающий не все последовательности и вертикальный блок "минус блок", то есть прямоугольник в выравнивании, в котором нет оснований предполагать гомологичность фрагментов. Полученные блоки представлены в едином изображении 1.
В этом задании мы нашли в Uniprot все белки, содержащие данный домен. Для этого мы воспользовались поисковой командой:
database:(type:pfam PF01498)
Общее число находок составило 12068, из них в Swiss-prot: 4. Это примерно в 4 раза больше всех находок в Pfam. Excel-файл выдачи можно посмотреть тут. С помощью команды Excel:
=СЧЁТЕСЛИ(H:H;"PF13358;PF01498;")
мы посчитали число белков с такой архитектурой в Uniprot: их получилось 5360. Для сравнения, в Pfam их 1790. С помощью команд:
=СЧЁТЕСЛИ(G:G;"Eukaryota")
=СЧЁТЕСЛИ(G:G;"Bacteria")
мы посчитали, что белков с этим доменом у эукариот в Uniprot 11835 (в Pfam 3929, см. задание 1), а у бактерий 143 (в Pfam 40). Также мы попытались определить, какой домен PROSITE соответствует нашему домену Pfam, но, как выяснилось, никакой, потому что база PROSITE еще меньше по размеру.
В этом практикуме также предлагалось выполнить структурное выравнивание белков с одинаковыми доменами с помощью PDBeFold. Я честно проделал это задание на нескольких доменах, но результаты оказались настолько удручающими, что я не захотел ими делиться. Что касается сути всей работы, изложенной выше: база данных Pfam несовершенна. Она вполне точно показывает расположение доменов белков, но количество белков в ней в разы меньше, чем в том же Uniprot. Это и логично, ведь в Uniprot имеет больше источников информации - в нее попадает всё о доменах из разных баз данных.