Eritis sicut Deus, scientes bonum et malum

Сайт студента ФББ Пензара Дмитрия

Филогенетические деревья Нахождение диагностических позиций в выравнивании Сравнение деревьев, построенных различными алгоритмами Укоренение филогенетических деревьев Проверка статьи о цитохромах b Построение деревьев по нуклеотидным последовательностям. Паралоги Ферменты. База KEGG. Работа с KEGG ORTHOLOGY Доменная архитектура

RIP - Ribosome inactivating protein

All strains tree

Для работы был выбран домен PF00161. Данный домен имеет название RIP(Ribosomoe Activating Protein), входит в состав множества огранических ядов, которые действуют за счет остановки трансляции с рибосомы. К примеру, данный домен входит в состав известного белкового яда, добываемого из из клещевины - рицина.

Домен насчитывает 12 архитектур, содержащих суммарно 945 белковых последовательностей. Ссылка на список архитектур домена

Информация об архитектурах всех последовательностей, включающих данный домен представлена на первом листе (DOMAINS) в таблицы Excel. Данные были получены с помощью первого скрипта (swisspfam-to-xls.py), из данных к заданию.

Из базы данных Uniprot по идентификаторам были получены все последовательности, включающие домен RIP.

С помощью второго из данных скриптов (uniprot-to-taxonomy.py) были получены данные о таксономии этих последовательностей. Они приведены на той же странице (TAXONOMY) таблицы Excel.

С помощью Python из этих данных были составлены доменные архитектуры для каждой последовательности (ссылка на скрипт). Результат был добавлен в ту же таблицу Excel на страницу 3 (Architecture), где для каждого домена (столбцы) показана встречаемость в каждой последовательности (строки), а также в скобках длина каждого случая встречаемости. Колонка, соответствующая исходному домену, выделена зеленым.

В качестве исследуемого таксона был выбран таксон Cellular, в качестве подтаксонов - Eukaryota и Bacteria.

С помощью скрипта choose.py были выбраны только представители, входящие в таксоны Bacteria и Eukariota. Далее с помощью сервиса Muscle для них было построено выравнивание. Скачать выравнивание можно по этой ссылке

Построение филогенетического дерева последовательностей домена

Методом Maximum Likelihood было реконструировано эволюционное дерево данных белков - ссылка на структуру дерева в .nwk формате

Для подтверждения правильности построения дерева использовался bootstrap анализ с 100 репликами

Изображения полученного дерева и бутстрепного дерева приведены на рис. 1 и рис. 2

All strains tree

Дерево, построенное методом Maximum Likelihood

All strains tree

Бутстреп дерево для данной выборки

Дерево отчетливо делится на 3 множества - красным выделено множество прокариот и вирусов, имеющих первую доменную архитектуру, синим - второе множество, состоящее из эукариот, имеющих первую доменную архитектуру, зеленым - эукариоты, имеющие вторую доменную архитектуру.

Можно предложить следующий сценарий эволюции домена - изначально он имелся у бактерий с первой архитектурой. Использовался для подавления размножения других видов бактерий. В вирусы он попал за счет того, что лямбда-подобные фаги вырывают из генома хозяина большие части генома. В эукариоты этот домен попал во время эндосимбиоза, в следствии которого появились Viridiplantae. Далее у части (в том числе и у клещевины) он был включен в новую доменную архитектуру.

Построение профиля подсемейства и характеристика качества его работы

В качестве подсемейства были выбрана группа, выделенная на дереве зеленым цветом. По ним с помощью программы hmm2biuld был построен профиль последовательностей и затем он был откалиброван (программа hmm2calibrate).

По этому профилю был проведен поиск по всем белкам, содержащих RIP с помощью программы hmm2search без дополнительных параметров.

Далее с помощью скрипта create_ROC_and_EP.py были получены ROC-кривая (рис.3) и Enrichment plot (рис. 4) для модели, при поиске во всех последовательностях, содержащих домен RIP.

На их основании можно утверждать, что модель подходит для поиска белков данного подсемейства.

All strains tree

ROC-кривая для модели

All strains tree

EP для модели

Тектовые отчеты построения ROC и EP

Более подробные результаты при пороге e-value 4.9e-49 приведены в таблице 1. В данном документе Excel представлены выполнения практикума.

На самом деле

принадлежит подсемейству не принадлежит сумма
Выше порога по профилю 106 78 184
Ниже порога 1 596 597
сумма 107 574 681
All strains tree














Дата последнего изменения: 04.02.2015
Все материалы разрешается использовать только при извещении правообладателя.
© Penzar Dmitry. All rights reserved.
Flag Counter Valid HTML 4.01 Strict Valid CSS!