Учебный сайт Юдиной А.С.

Главная

Обо мне

Семестры

Поиск эволюционных доменов.

Для поиска мотивов в программе МЕМЕ было предложено выбрать штамм бактерии и отобрать у него 8-10 генов, участвующих в биосинтере пуринов (поиск проводился в Uniprot по ключевому слову "Purine biosynthesis").

Далее работа будет проводиться с: Escherichia coli UTI89 (ECOUT), для которой найдено 8 аннотированных записей по keyword "Purine biosynthesis".

AC записи EMBL, описывающей геном: CP000243.

Protein Gene Coordinates
Phosphoribosylformylglycinamidine synthase purL complement(2833402..2837445)
Formate-dependent phosphoribosylglycinamide formyltransferase purT 1957569..1958747
Adenylosuccinate synthetase purA 4676499..4677797
Bifunctional protein FolD folD complement(567893..568759)
GMP synthase [glutamine-hydrolyzing] guaA complement(2766782..2768359)
Bifunctional purine biosynthesis protein PurH purH 3698818..3700407
HTH-type transcriptional repressor PurR purR 1773602..1774627
Phosphoribosylformylglycinamidine cyclo-ligase purM 2757020..2758057

По координатам генов, взятых из файла с полным геномом были определены координаты 100 нуклеотидов, предшествующих самим генам. Программой deascseq последовательности перед генами были переданы в один файл prot.fasta.

На сервере kodomo была запущена программа ememe с параметрами -nmotifs 3 и -revcomp. Данные параметры позволяют искать заданное число мотивов и производить поиск на прямой и обратной цепях. В рамках данной задачи это необходимо, так как гены некоторых белков расположены на комплиментарной цепи.

Результат выдачи МЕМЕ meme.html.

Теперь разберем некоторые полученные результаты.
Для каждого найденного мотива было выдано LOGO - диаграмма в которой высота каждого столбца предполагаемого мотива равна информационному содержанию данного столбца, а высота отдельной буквы столбца - вероятность встечи этой буквы умноженная на информационное содержание данной позиции. Иными словами - данная диаграмма показывает как вероятнее всего (в большинстве случаев) выглядит искомый мотив.
Для каждого мотива выдано егог Инвормационное содержание - критерий того, насколько целесообразно считать данную находку мотивом. При грубом подсчете слово длины I/2 встретиться в геноме один раз на 4^(I/2) пар нуклеотидов.
Кроме того, для каждого мотива посчитано E-value - математическое ожидание - показатель того, сколько раз находки с таким же или большим весом встречаются в последовательностях.

  • E-value = 2.3
  • I= 22.2 bit
  • 6 последовательностей содержат мотив
  • Удивительно, что E-value больше единицы, что свидетельствует в пользу плохой находки мотива, при этом информационное содержание высокое и по logo видно, что находится 8 консервативных позиций. При этом p-value каждой находки низкое. Для некоторых последовательностей найденный мотив похож на сайт посадки рибосомы (например в purM).
  • E-value = 1.4*10^3
  • I= 16.6 bit
  • 7 последовательностей содержат мотив
  • E-value = 7.5*10^3
  • I= 15.0 bit
  • 2 последовательности содержат мотив

© Юдина Анастасия, 2016