Практикум 11

Резюме: В ходе работы над данным практикумом были освоены базовые навыки работы с белковым BLASTом (blactp)

Выбор семейства доменов

Для выполнения практикума было выбрано семейство N-концевых доменов циклинов. Его характеристики представлены в таблице ниже:

AC pfam	ID pfam	#SEED	#All	#SW	#architectures	#3D	#eukaryota	#archaea	#bacteria	#viruses
PF00134	Cyclin, N-terminal domain	92	75k	351	894	288	75185	184	16	14

Видно, что это семейство доменов встречается в основном в эукариотических белках, что неудивительно, так как циклины - это эукариотические белки, участвующие в регуляции клеточного цикла (его нет в других супер-царствах). Регуляция достигается за счет циклического изменения содержания разных циклинов в клетке, которые регулируют активность циклин-зависимых киназ, выполняющих уже эффекторную функцию. Структура этого домена состоит из нескольких альфа-спиралей. Его функция (по крайней мере в каких-то белках) - регуляторная, так как по нему может происходить убиквинтинирование - пришивание убиквитнина, которое приводит к деградации белка [источник]. Это очень важная функция, так как нужно постоянно регулировать содержание циклинов для протекания клеточного цикла. Насколько я понял, среди виурсов этот домен встречается, в основном, у онкогенных вирусов, белки которых могут имитировать циклины, тем самым нарушая клеточный цикл и приводя к появлению опухоли [источник].

Описание выравнивания seed

В выравнивании seed (число последовательностей - 92, число колонок - 187) нет консервативных (как абсолютно, так и функционально) позиций, что говорит об отсутствии максимально достоверного блока для всех последовательностей. Наверное, это можно объяснить тем, что в выравнивании довольно много белков, и они из организмов с очень разным систематическим положением. В качестве максимального достоверного блока, включающий фрагменты не из всех последовательностей я выбрал участок с координатами 92-105. В него входят фрагменты из 55 последовательностей. Консервативные позиции: 92:L, 93:Q, 94:L, 95:[ILVA], 100:[MVFL], 103:A, 105:K (в этот блок можно включить еще больше последовательностей, но тогда будет снижаться консервативность позиций). Возможно, стоило включить и 106 позицию, но непонятно, как оценивать изменение достоверности в данном случае, да и в целом. Участки выравнивания, на которых нет основания считать, что выравнивание отражает ход эволюции - это, например, 11-20, 82-91, 147-160. Ссылка на файл:

Проект Jalview

Анализ доменов, входящих в состав белков с разной доменной архитектурой

Я выбрал 2 доменые архитектуры, содержащие 13 (первая) и 16 (вторая) белков (Рис.1). Далее я выровнял их с помощью программы Mafft по отдельности, нашел в них нужный домен и провел выравнивание участков последовательностей содержащих домен уже для белков из двух групп, тоже с помощью Mafft. Cразу стало понятно, что домены из последовательностей белков разных архитектур очень сильно отличаются. Например, можно выделить достоверный блок с 222ой по 243ю позиции, содержащий последовательности со второй доменной архитектурой (снизу), но расширить этот блок на последовательности с первой архитектурой, очевидно, нельзя. И этот блок не единственный такой в выравнивании (см. Проект Jalview). Таким образом, последовательности доменов из этих двух доменных архитектур достоверно (на взгляд) отличаются, поэтому можно сделать вывод о том, что сначала в эволюции разошлись домены, входящие в эти архитектуры, а потом уже появились эти две доменные архитектуры (либо какой-то домен возник де-ново? - слишком уж сильно они отличаются). Стоит отметить, что белки с этими доменными архитектурами принадлежат организмам, далеким по систематическому положения. Первая - эукариотам (в основном, грибам), а вторая - герпесовирусам.

Рис.1 Строение выбранных мной доменных архитектур

Рис.2 Участок выравнивания, содержащего последовательности доменов из белков с разной доменной архитектурой (разделены чертой).

Проект Jalview

Dot Plot белков с разной доменной архитектурой

Сначала я думал, что проблема была в вирусном домене (в прошлой пункте) и что это его последовательность будет сильно отличаться от последовательностей из клеточных организмов. Но проведя поиск локальных сходств с помощью blastp между референсными белками из выбранных и некоторых других доменных архитектур, я обнаружил, что последовательность грибного домена имеет очень мало сходств (при пороге E-value < 10 blast вообще их не находит) с последовательностями доменов из других доменных архитектур. Грибные белки содержат еще РНК-связывающий домен и как-то регулируют циклин-зависимые киназы, причем на стадии транскрипции (как это?), больше информации я не нашел. Для выполнения этого пункта я взял вторую (вирусную) архитектуру из прошлого пункта и новую доменную архитектуру, содержащую N-концевой домен циклина (Рис.3). Далее были скачаны последовательности репрезентативных белков (Q4SG06 с новой доменной архитектурой , Q98147 - со второй из предыдущего пункта). С помощью BLAST был получен dotplot (карта их локального сходства) - Рис.4. На графике видно два небольших разрыва (инделя). Левый из них объясняется инсерцией в первой последовательности (обозначена и на картинке структуры). Правый - либо делецией в первой последовательности, либо инсерцией во второй.

Рис.4 Dotplot (по оси x - Q98147, по оси y - Q4SG06).