Для данной части практикума был выбран рибосом-инактивирующий белок в качестве домена. RIP выполняет функцию каталитического токсина, который необратимо инактивируют синтез белка. [1]. Общая информация о домене представлена в таблице 1; ссылка на страницу в Pfam находится тут.
Название | Ribosome inactivating protein |
---|---|
ID | RIP |
AC | PF00161 |
Общее число последовательностей | 815 |
Число последовательностей в выравнивании seed | 38 |
Число доменных архитектур | 32 |
Число 3D структур | 287 |
Число белков с доменом по таксонам |
Eukaryota: 650 Bacteria: 91 Viruses: 20 |
Число позиций | 196 |
Дата создания | Среда, 1 августа 15:22:16 2018 года |
Домен RIP может входить в 32 различных доменных архитектур, но чаще всего он встречается один (649 последовательностей) или со вторым таким же доменом (23 последовательности). Ниже на картинке 1 можно увидеть иллюстрацию структуры белков, в которых домен RIP входит вместе с доменом NB-ARC; таких последовательностей всего 11.
Далее с помощью Sunburst выберем ветку, в которой было бы небольшое число белков с данным доменом и при этом число видов было больше 10. Возьмем суперцарство Viruses. В данной ветви 20 подходящих последовательностей из 14 видов. Расположение данного суперцарства в Sunburst представлено на картинке 2.
Выбранные последовательности были скачены в fasta-формате и загружены в Jalview. Выравнивание было отредактированно, ссылку на итоговый проект можно найти тут, на исходное выравнивание можно найти тут.
Итоговое выравнивание было импортировано в Genedoc. Было найдено несколько блоков: консервативный вертикальный блок (картинка 3); консервативный блок, включающий не все последовательности (картинка 4) и блок из выравнивания, по которому нельзя судить о гомологичности взятых белков (картинка 5).
В Uniprot был введен запрос database:(type:pfam pf00161). Поиск выдал 2531 записей о последовательностях, содержащих домен Ribosome inactivating protein. Среди них 67 записей находятся в базе данных Swiss-Prot, остальные 2464 последовательностей лежат в автоматической базе данных TrEMBL. Далее была скачена таблица в exel-формате, с добавленными колонками cross-reference(Pfam), cross-reference(PROSITE) и колонка с принадлежностью белков к суперцарствам. Таблицу можно скачать тут.
Далее было определено распределение белков по суперцарствам, оно представлено ниже:
Eukaryota: 1719 Bacteria: 703 Viruses: 109
Количество белков из Uniprot с рассматриваемым доменом больше чем в Pfam (более чем в два раза по каждому из представленных суперцарств). Вероятно, это объясняется тем, что Pfam обновляется медленнее Uniprot и поэтому данные в Pfam появляются с весовым запозданием.
Был определен AC домена из PROSITE, который сответствует выбранному RIP домену - PS00275;
Также было посчитано количество белков с доменной архитектурой, представленной на картинке 1. Их общее количество равно 10, хотя в Pfam указано о существовании 11 последовательностей с такой структурой.
Формулы для всех подсчетов выше приведены в столбце M в exel-таблице.
1. Ribosome-inactivating proteins; Matthew J Walsh, Jennifer E Dodd, and Guillaume M Hautbergue. Ссылка на источник.