Джозеф Джостар самый крутой. Роман Донской, «Bloody Stream»
Pfam
Информация по домену
Выбор домена для этого задания происходил исключительно по симпатичности названия. В данном случае название домена совпадает с его ID. Ссылка на его страницу на сайте Pfam: ссылка. ID: Josephin AC: PF02099 Функция: Деубиквитинирование Количество последовательностей:
Full — 78
Seed — 1426
Архитектур с данным доменом: 56 Белков, для которых известна 3D структура: 2. Последовательностей по таксонам:*Bacteria — 3 (гпг???) Metazoa — 757 Viridiplantae — 187 Fungi — 139
Uncategorized eukaryota — 88
(No kingdom) — 174 (Из интересного, у Apicomplexa 71)
HMM профиль:
Дата создания — 4 августа 2018 года
Число позиций — 163
Домены-приятели
Вместе с Josephin часто встречается UIM(Ubiquitin interaction motif), что логично, а также с SUIM_assoc(Unstructured region C-term to UIM in Ataxin3). Также частым его приятелем является домен UBX, домен, встречающийся в белках убиквитиновой регуляции. Некоторые архитектуры представлены на Рисунке 1.
* — информация взята из раздела Sunburst. В разделе Trees числа несколько отличаются.
Выравнивание последовательностей из Pfam
С четвёртой или пятой попытки удалось выбрать таксон, который давал бы более или менее нормальное выравнивание. Им оказался порядок Agaricales. В нём нашлось 22 последовательности на 20 видов.
Был скачан fasta файл, содержащий просто последовательности. Файл был помещён в Jalview и выровнен с помощью Muscle при стандартных настройках (Сырое выравнивание в .jvp). После этого из выравнивания были удалены последовательности, похожие более чем на 70%, а также удалены последовательности, слишком сильно на мой взгляд отличающиеся по длине. В итоге получили выравнивание на 11 последовательностей. Вот файлы: .jvp, .msf.
Далее .msf файл был помещён в Genedoc и на стандартных настройках расскраски были найдены следующие участки(Рис.2):
Примерно 0 — 240: очень длинный консервативный участок. Местами встречаются гэпы из-за крупных инделей в единичных последовательностях, но в остальном наблюдается очень много консервативных колонок, чего явно не могло произойти по случайным причинам.
Примерно 240 — 260: небольшой неконсервативный участок. Где-то есть интересные штуки, например, SSS в двух последовательностях прямо под 240, но в остальном последовательности очень не похожи в этом участке.
Окрестность 320: небольшой консервативный участок, из которого выпадают вторая сверху и третья снизу последовательности. Конечно, встречаются единичные совпадающие аминокислоты, но, скорее всего, по случайным причинам. Также выпадает вторая снизу последовательность, т.к. у неё в этом месте индель, и совпавшие 3 аминокислоты вполне могли совпасть по случайным причинам.
Рисунок 2. Фрагмент выравнивания.
Поиск по UniProt
Сначала был произведён поиск по следующему запросу: Запрос. Далее в таблицу были добавлены колонки об этих белках в Pfam и PROSITE, а также о таксонах белков по царствам. Таблица была скачана в формате .xlsx и экспортирована в Google Sheets, там же были расчёты — Таблица.
В окне запроса по UniProt видно, что исследуемый домен в PROSITE имеет ID JOSEPHIN и AC PS50957.
Среди найденных белков 18 из Swiss-Prot и 3318 из TrEMBL.
Небольшие проблемы возникли при подсчёте числа архитектур: в скачанной таблице нет информации по количеству копий доменов в белке, поэтому считались все такие белки, в которых в любых количествах содержится Josephin и UIM, хотя доменов UIM может быть 3, 2 или 4, и все такие архитектуры надо считать различными. Количество таких архитектур в Pfam было посчитано простым складыванием числа последовательностей из всех полей, где есть только Josephin и UIM, благо их было не очень много. Результаты всех этих подсчётов находятся в Таблице 1.
Таблица 1. Некоторая информация о домене Josephin из UniProt и Pfam.
UniProtKB
Pfam
Metazoa
Fungi
Viridiplantae
Metazoa
Fungi
Viridiplantae
Josephin в любых сочетаниях
2243
269
496
757
139
187
Josephin + UIM(в любом количестве) (во всех таксонах)
939
94
Единственный вывод, который можно сделать из полученных цифр: в UniProt содержится намного больше последовательностей о исследуемом домене.
Для интереса был проведён поиск по этому же домену, но через PROSITE (Запрос). Было найдено на 3 последовательности больше (все из TrEMBL). Забавно.