Сигналы, мотивы, PWM.
Цель практикума: поискать с помощью программы MEME сайт связывания
транскрипционного фактора, регулирующего синтез пуринов у одной из гаммапротеобактерий.
Для поиска мотивов было предложено найти у своей бактерии в базе данных Uniprot 8-10 генов, принимающих участие в биосинтезе пуринов (поиск по ключевому слову
"Purine biosynthesis"). Далее приведены данные о найденных белках у Salmonella typhimurium LT2 (Uniprot-мнемоника - SALTY).
Entry | Entry name | Protein names | Gene names | Coordinates |
P74881 | PUR4_SALTY | Phosphoribosylformylglycinamidine synthase | purL STM2565 | complement(2708255..2712142) |
Q8ZNW5 | PURT_SALTY | Formate-dependent phosphoribosylglycinamide formyltransferase | purT STM1883 | 1975661..1976839 |
P65882 | PURA_SALTY | Adenylosuccinate synthetase | purA STM4366 | 4609111..4610409 |
P58688 | FOLD_SALTY | Bifunctional protein FolD | folD STM0542 | complement(602705..603571) |
P26977 | PUR2_SALTY | Phosphoribosylamine--glycine ligase | purD STM4175, STMF1.31 | complement(4391174..4392463) |
Q8ZN60 | GUAA_SALTY | GMP synthase [glutamine-hydrolyzing] | guaA STM2510 | complement(2622804..2624381) |
O68446 | PURR_SALTY | HTH-type transcriptional repressor PurR | purR STM1430 | complement(1507911..1508936) |
P74883 | PUR5_SALTY | Phosphoribosylformylglycinamidine cyclo-ligase | purM STM2499 | complement(4392475..4394064) |
P26978 | PUR9_SALTY | Bifunctional purine biosynthesis protein PurH | purH STM4176, STMF1.30 | 2613072..2614109 |
P65889 | PUR7_SALTY | Phosphoribosylaminoimidazole-succinocarboxamide synthase | purC STM2487 | complement(2602103..2602816) |
Сборка генома Salmonella typhirium LT2 (AC: AE006468.2)
По координатам кодирующих последовательностей в геноме были найдены координаты 100 предшествующих им (со стороны 5'-конца от стартового кодона) нуклеотидов.
Такие нуклеотиды составляют Upstream-регионы генов. Далее с помощью команды descseq upstream-регионы были собраны в единый файл
upstream.fasta.
Затем была запущена программа MEME, которая и должна найти мотивы в последовательностях. Командная строка: ememe upstream.fasta -nmotifs 3 -revcomp
Полная выдача программы МЕМЕ.
Разберём, что говорят эти результаты.
Для каждого мотива приведено его информационное содержание (Information Content) - числовой параметр,
позволяющий оценить, является данная последовательность мотивом или случайной находкой. По грубым оценкам, слово длины n = I/2 (где I - инормационное содержание)
может встретиться в геноме раз в 4^n пар нуклеотидов.
E-value показывает, насколько велика вероятность находки с таким же или большим весом.
Также приведены LOGO - схематичные диаграммы, в которых высота столбца равна I этой позиции и показывает его вклад в суммарное I всего мотива, а высота букв равна
I столбца, умноженному на вероятность встретить данную букву на данной позиции. Таким образом, LOGO отображает наиболее правдоподобную последовательность искомого мотива.
Основные характеристики предполагаемых мотивов приведены ниже:
|
- E-value = 2.7*10^(-3)
- Information Content = 20.2 (bits)
- встретился у 7 последовательностей
|
|
- E-value = 5.9*10^3
- Information Content = 10.4 (bits)
- встретился у 10 последовательностей
|
|
- E-value = 3.6*10^3
- Information Content = 10.1 (bits)
- встретился у 10 последовательностей
|
В данном случае мотивом можно считать только 1ую последовательность, найденную программой. Такой вывод можно сделать
на основании низкого E-value (тысячные доли единицы) и довольно высокого информационного содержания.
|