Сигналы, мотивы, PWM


Для выполнения практикума в первую очередь был произведен поиск в базе данных Uniprot с параметрами: OS: Yersinia Pestis (YERPE), KW: purine biosyntesis . В Uniprot находится 45 аннотированных (Reviewed) записей с ключевым словом "Purine biosynthesis".

Из списка "Popular organisms" я выбрала штамм с 8 записями Swiss-Prot, аннотированных как участвующие в биосинтезе пуринов для данного штамма. Выбранный штамм: Yersinia pestis bv. Antiqua (strain Angola) , Uniprot-мнемоника штамма: YERPG, список выбранных белков представлен в таблице 1.

Табл. 1 Список выбранных белков
Entry Entry name Protein names Gene names Gene coordinates
A9R5W9 PURT_YERPG Formate-dependent phosphoribosylglycinamide formyltransferase purT 1687096..1688277
A9QYM6 PURA_YERPG Adenylosuccinate synthetase, AMPSase, AdSS purA complement(1339605..1340471)
A9R256 FOLD_YERPG Bifunctional protein FolD folDcomplement(701035..702333)
A9R7Z2 GUAA_YERPG GMP synthase [glutamine-hydrolyzing] guaAcomplement(422193..423770)
A9R8E1 PUR9_YERPG Bifunctional purine biosynthesis protein PurH purHcomplement(485854..487443)
A9QZB3 PURR_YERPG HTH-type transcriptional repressor PurR purRnot found :(
A9QZW5 PUR5_YERPG Phosphoribosylformylglycinamidine cyclo-ligase purMcomplement(3307987..3309030)
A9R2H1 PUR7_YERPG Phosphoribosylaminoimidazole-succinocarboxamide synthase purC3322470..3323183


Координаты исследуемых генов были найдены в полном геноме бактерии (скачан из ENA/EMBL). Для каждого из генов выбранных белков были записаны координаты Upstream-региона из 100 нуклеотидов (то есть 100 нуклеотидов с 5'-стороны от статового кодона гена). Координаты Upstream-регионов приведены в табл.2. Ссылка на fasta-файл с вырезанными Upstream-регионами: Upstream.fasta

Табл. 2 Список выбранных белков c координатами Upstream-регионов из 100 нуклеотидов
Entry Entry name Upstream
A9R5W9 PURT_YERPG 1686996 - 1687096
A9QYM6 PURA_YERPG 1340471 - 1340571
A9R256 FOLD_YERPG 702333 - 702433
A9R7Z2 GUAA_YERPG 423770 - 423870
A9R8E1 PUR9_YERPG 487443 - 487543
A9QZB3 PURR_YERPG :(
A9QZW5 PUR5_YERPG 3309030 - 3309130
A9R2H1 PUR7_YERPG 3322370 - 3322470


Для того, чтобы вырезать необходимые участки из файла с геномом, выполнялись следующие команды (приведены примеры для прямой и обратной цепей):

>descseq CP000901.txt -sbegin1 1686996 -send1 1687096 -osformat2 fasta -out purT -desc "up purT"

>descseq CP000901.txt -sbegin1 1340471 -send1 1340571 -sreverse1 -osformat2 fasta -out purA -desc "up purA"


Для поиска мотивов (3 мотива) в последовательностях, из командной строки была запущена программа MEME.

>ememe upstream.fasta -nmotifs 3 -revcomp


Результаты поиска мотивов с помощью программы MEME

Ссылка на полную выдачу MEME: meme.html
Разберём, что говорят эти результаты. Является данная последовательность мотивом или случайной находкой - позволяет определить его информационное содержание (Information Content). Оно приводится для каждого мотива. По грубым оценкам, слово длины n = I/2 встречается в геноме раз в 4^n пар нуклеотидов. Кроме того, для каждгог мотива приводится E-value. Оно показывает, насколько велика вероятность находки с таким же или большим весом. Визуалзируется мотив (наиболее правдоподобная его последовательность) с помощью LOGO. LOGO - это диаграмма, в которой высота столбца равна I рассматриваемой позиции (показывает вклад в суммарное I всего мотива), а высота букв равна произведению I столбца и вероятности встретить данную букву на данной позиции. Ниже приведены LOGO трёх найденных программой мотивов.
Назад