Практикум 11
Резюме: В ходе работы над данным практикумом были освоены базовые навыки работы с белковым BLASTом (blactp)
Выбор семейства доменов
Для выполнения практикума было выбрано семейство N-концевых доменов циклинов. Его характеристики представлены в таблице ниже:
AC pfam | ID pfam | #SEED | #All | #SW | #architectures | #3D | #eukaryota | #archaea | #bacteria | #viruses |
---|---|---|---|---|---|---|---|---|---|---|
PF00134 | Cyclin, N-terminal domain | 92 | 75k | 351 | 894 | 288 | 75185 | 184 | 16 | 14 |
Описание выравнивания seed
В выравнивании seed (число последовательностей - 92, число колонок - 187) нет консервативных (как абсолютно, так и функционально) позиций, что говорит об отсутствии максимально достоверного блока для всех последовательностей. Наверное, это можно объяснить тем, что в выравнивании довольно много белков, и они из организмов с очень разным систематическим положением. В качестве максимального достоверного блока, включающий фрагменты не из всех последовательностей я выбрал участок с координатами 92-105. В него входят фрагменты из 55 последовательностей. Консервативные позиции: 92:L, 93:Q, 94:L, 95:[ILVA], 100:[MVFL], 103:A, 105:K (в этот блок можно включить еще больше последовательностей, но тогда будет снижаться консервативность позиций). Возможно, стоило включить и 106 позицию, но непонятно, как оценивать изменение достоверности в данном случае, да и в целом. Участки выравнивания, на которых нет основания считать, что выравнивание отражает ход эволюции - это, например, 11-20, 82-91, 147-160. Ссылка на файл:
Анализ доменов, входящих в состав белков с разной доменной архитектурой
Я выбрал 2 доменые архитектуры, содержащие 13 (первая) и 16 (вторая) белков (Рис.1). Далее я выровнял их с помощью программы Mafft по отдельности, нашел в них нужный домен и провел выравнивание участков последовательностей содержащих домен уже для белков из двух групп, тоже с помощью Mafft. Cразу стало понятно, что домены из последовательностей белков разных архитектур очень сильно отличаются. Например, можно выделить достоверный блок с 222ой по 243ю позиции, содержащий последовательности со второй доменной архитектурой (снизу), но расширить этот блок на последовательности с первой архитектурой, очевидно, нельзя. И этот блок не единственный такой в выравнивании (см. Проект Jalview). Таким образом, последовательности доменов из этих двух доменных архитектур достоверно (на взгляд) отличаются, поэтому можно сделать вывод о том, что сначала в эволюции разошлись домены, входящие в эти архитектуры, а потом уже появились эти две доменные архитектуры (либо какой-то домен возник де-ново? - слишком уж сильно они отличаются). Стоит отметить, что белки с этими доменными архитектурами принадлежат организмам, далеким по систематическому положения. Первая - эукариотам (в основном, грибам), а вторая - герпесовирусам.
Dot Plot белков с разной доменной архитектурой
Сначала я думал, что проблема была в вирусном домене (в прошлой пункте) и что это его последовательность будет сильно отличаться от последовательностей из клеточных организмов. Но проведя поиск локальных сходств с помощью blastp между референсными белками из выбранных и некоторых других доменных архитектур, я обнаружил, что последовательность грибного домена имеет очень мало сходств (при пороге E-value < 10 blast вообще их не находит) с последовательностями доменов из других доменных архитектур. Грибные белки содержат еще РНК-связывающий домен и как-то регулируют циклин-зависимые киназы, причем на стадии транскрипции (как это?), больше информации я не нашел. Для выполнения этого пункта я взял вторую (вирусную) архитектуру из прошлого пункта и новую доменную архитектуру, содержащую N-концевой домен циклина (Рис.3). Далее были скачаны последовательности репрезентативных белков (Q4SG06 с новой доменной архитектурой , Q98147 - со второй из предыдущего пункта). С помощью BLAST был получен dotplot (карта их локального сходства) - Рис.4. На графике видно два небольших разрыва (инделя). Левый из них объясняется инсерцией в первой последовательности (обозначена и на картинке структуры). Правый - либо делецией в первой последовательности, либо инсерцией во второй.