Практикум 10.

1. Поиск консервативных мотивов в выравниваниях.

Краткая информация по домену:

  1. AC: PF00028
  2. Название: Cadherin domain
  3. Описание и функции: внеклеточный домен белков кадгеринов, который обеспечивает клеточную адгезию путём кальций-зависимого гомофильного соединения
  4. Seed: 55
  5. Количество аннотированных белков: 328

Ссылки на файлы:

Я скачал выравнивание seed (никакие последовательности удалять не пришлось, так как никто из них не выделялся при пороге redundance threshold 90%). Так как внятной информации по возможным консервативным участками в у внеклеточного домена я не нашел (в одной статье выделяли трипептид HAV, как важный участок для обеспечения адгезии, но среди всего моего выравнивания  seed была только одна последовательность, содержащая HAV). Поэтому я искал возможные мотивы вручную. Ниже представлены таблицы с информацией по консервативным участкам, которые могут быть мотивами.

Таблица 1. Первый "консервативный" участок (X - любая аминокислота).
аминокислота G T X V X X V X A X D X D
позиция в выравнивании muscle 14 15 16 17 18 19 20 21 22 23 24 25 26
порог идентичности (%) 60 41 - 44 - - 40 - 61 - 80 - 80
Таблица 2. Второй "консервативный" участок (X - любая аминокислота).
аминокислота L D X E
позиция в выравнивании muscle 81 82 83 84
порог идентичности (%) 80 78 - 80
Таблица 3.  Третий "консервативный" участок (X - любая аминокислота; в выравнивании seed в данном участке не встречались индели, поэтому я посчитал, что это ошибка в выравнивании muscle).
аминокислота Y X L X V X A X D
позиция в выравнивании muscle 102 103 104 105 106 107 108 109 104
порог идентичности (%) 70 - 65 - 43 - 65 - 70

Список мотивов для Jalview и количество найдених по ним последовательностей, указаное в скобках :

  1. GT.[VIL].{4}[AVIL].D.D (15 seq)
  2. [LIV]D.E (49 seq)
  3. Y.[VIL].{3}[AVIL].D (28 seq)

Так как первый мотив встречается слишком редко, то его нельзя назвать специфичным для данной группы белков. Второй мотив обладает существенным недостатком - малая длина. Поэтому я решил исползовать третий мотив, несмотря на наличие в нем неконсервативных участков и не очень высокую встречаемость, для поиска в базе данных SwissProt в PROSITE. Для мотива Y-X-[VIL]-X(3)-[AVIL]-X-D (программа запущена с параметрами, указанными в подсказках к заданию) было найдено 1019 совпадений в 1000 последовательностях. Из чего следует, что он является плохим паттерном для выбранного мною домена, так как присутствуют случайные совпадения. Я скачал эти последовательнотси и выровнял их с помошью mafft. Выравнивание было ужасным. Ещё хуже было с поиском того мотива (см рис. 1)

Рис. 1. Выравнивание последовательностей из SwissProt, найденых по мотиву 3 (черным цветом выделен этот мотив).

2. Мотив специфичный для одной клады филогенетического дерева.

3. PSI-BLAST. Составление семейства гомологов.

Для выполнения данного задания я выбрал белок с AC P17265, выделенный из Rhizobium meliloti. Он является фактором перехода рибосом в стационарное состояние (обеспечивает димеризацию 70S рибосом для перехода в 1000S форму, которая является транскрипционно не активной).

Таблица 4. Отражает итерации PSI-BLAST.
Номер итерации Число находок выше порога (0,005) Идентификатор худшей находки выше порога E-value этой находки Идентификатор лучшей находки ниже порога E-value этой находки
1 17 P0A147.1 7 * 10^-0.4 P26983.1 0.028
2 27 P33987.1 10^-0.8 - -
3 28 P9WMA8.1 0.002 - -
4 28 P24694.1 3 * 10^-18 - -
5 28 P24694.1 2 * 10^-18 - -

Так как большинство названий у белков совпадает (отличается у 4 из 28 последовательностей) и e-value низкий, можно предположить, что все они относятся к одному семейству. Выдачи PSI-BLAST представлены ниже:

  1. первая
  2. вторая
  3. третья
  4. четвертая
  5. пятая

4. Поиск de novo мотивы с помощью MEME.

5. Представленность сайта GATC.