Учебный сайт
Владимира Ноздрина

Джозеф Джостар самый крутой.
Роман Донской, «Bloody Stream»

Pfam

Информация по домену

 Выбор домена для этого задания происходил исключительно по симпатичности названия. В данном случае название домена совпадает с его ID. Ссылка на его страницу на сайте Pfam: ссылка.
ID: Josephin
AC: PF02099
Функция: Деубиквитинирование
Количество последовательностей: Full — 78
Seed — 1426

Архитектур с данным доменом: 56
Белков, для которых известна 3D структура: 2.
Последовательностей по таксонам:* Bacteria — 3 (гпг???)
Metazoa — 757
Viridiplantae — 187
Fungi — 139
Uncategorized eukaryota — 88
(No kingdom) — 174 (Из интересного, у Apicomplexa 71)
HMM профиль: Дата создания — 4 августа 2018 года
Число позиций — 163
Домены-приятели
 Вместе с Josephin часто встречается UIM(Ubiquitin interaction motif), что логично, а также с SUIM_assoc(Unstructured region C-term to UIM in Ataxin3). Также частым его приятелем является домен UBX, домен, встречающийся в белках убиквитиновой регуляции. Некоторые архитектуры представлены на Рисунке 1.
1)
2)
3)
4)
5)
6)
7)
8)
Рисунок 1. Доменные архитектуры с доменом Josephin. 1 — 3: Josephin + UIM + SUIM_assoc; 4: Josephin + UIM; 5:  osephin + SUIM_assoc; 6: Josephin + UBX; 7 — 8: Josephin + UIM + UBX;
* — информация взята из раздела Sunburst. В разделе Trees числа несколько отличаются.

Выравнивание последовательностей из Pfam

С четвёртой или пятой попытки удалось выбрать таксон, который давал бы более или менее нормальное выравнивание. Им оказался порядок Agaricales. В нём нашлось 22 последовательности на 20 видов.
Был скачан fasta файл, содержащий просто последовательности. Файл был помещён в Jalview и выровнен с помощью Muscle при стандартных настройках (Сырое выравнивание в .jvp). После этого из выравнивания были удалены последовательности, похожие более чем на 70%, а также удалены последовательности, слишком сильно на мой взгляд отличающиеся по длине. В итоге получили выравнивание на 11 последовательностей. Вот файлы: .jvp, .msf.
Далее .msf файл был помещён в Genedoc и на стандартных настройках расскраски были найдены следующие участки(Рис.2):
  1. Примерно 0 — 240: очень длинный консервативный участок. Местами встречаются гэпы из-за крупных инделей в единичных последовательностях, но в остальном наблюдается очень много консервативных колонок, чего явно не могло произойти по случайным причинам.
  2. Примерно 240 — 260: небольшой неконсервативный участок. Где-то есть интересные штуки, например, SSS в двух последовательностях прямо под 240, но в остальном последовательности очень не похожи в этом участке.
  3. Окрестность 320: небольшой консервативный участок, из которого выпадают вторая сверху и третья снизу последовательности. Конечно, встречаются единичные совпадающие аминокислоты, но, скорее всего, по случайным причинам. Также выпадает вторая снизу последовательность, т.к. у неё в этом месте индель, и совпавшие 3 аминокислоты вполне могли совпасть по случайным причинам.
Рисунок 2. Фрагмент выравнивания.

Поиск по UniProt

 Сначала был произведён поиск по следующему запросу: Запрос. Далее в таблицу были добавлены колонки об этих белках в Pfam и PROSITE, а также о таксонах белков по царствам. Таблица была скачана в формате .xlsx и экспортирована в Google Sheets, там же были расчёты — Таблица.
 В окне запроса по UniProt видно, что исследуемый домен в PROSITE имеет ID JOSEPHIN и AC PS50957.
 Среди найденных белков 18 из Swiss-Prot и 3318 из TrEMBL.
 Небольшие проблемы возникли при подсчёте числа архитектур: в скачанной таблице нет информации по количеству копий доменов в белке, поэтому считались все такие белки, в которых в любых количествах содержится Josephin и UIM, хотя доменов UIM может быть 3, 2 или 4, и все такие архитектуры надо считать различными. Количество таких архитектур в Pfam было посчитано простым складыванием числа последовательностей из всех полей, где есть только Josephin и UIM, благо их было не очень много. Результаты всех этих подсчётов находятся в Таблице 1.
Таблица 1. Некоторая информация о домене Josephin из UniProt и Pfam.
UniProtKB Pfam
Metazoa Fungi Viridiplantae Metazoa Fungi Viridiplantae
Josephin в любых сочетаниях 2243 269 496 757 139 187
Josephin + UIM(в любом количестве)
(во всех таксонах)
939 94
 Единственный вывод, который можно сделать из полученных цифр: в UniProt содержится намного больше последовательностей о исследуемом домене.
 Для интереса был проведён поиск по этому же домену, но через PROSITE (Запрос). Было найдено на 3 последовательности больше (все из TrEMBL). Забавно.