Страница четвертого семестра

Для выполнения практикума в первую очередь был произведен поиск в базе данных Uniprot с параметрами: OS: Yersinia Pestis (YERPE), KW: purine biosyntesis . В Uniprot находится 45 аннотированных (Reviewed) записей с ключевым словом "Purine biosynthesis".

Из списка "Popular organisms" я выбрала штамм с 8 записями Swiss-Prot, аннотированных как участвующие в биосинтезе пуринов для данного штамма. Выбранный штамм: Yersinia pestis bv. Antiqua (strain Angola) , Uniprot-мнемоника штамма: YERPG, список выбранных белков представлен в таблице 1.

Табл. 1 Список выбранных белков

Entry	Entry name	Protein names	Gene names	Gene coordinates
A9R5W9	PURT_YERPG	Formate-dependent phosphoribosylglycinamide formyltransferase	purT	1687096..1688277
A9QYM6	PURA_YERPG	Adenylosuccinate synthetase, AMPSase, AdSS	purA	complement(1339605..1340471)
A9R256	FOLD_YERPG	Bifunctional protein FolD	folD	complement(701035..702333)
A9R7Z2	GUAA_YERPG	GMP synthase [glutamine-hydrolyzing]	guaA	complement(422193..423770)
A9R8E1	PUR9_YERPG	Bifunctional purine biosynthesis protein PurH	purH	complement(485854..487443)
A9QZB3	PURR_YERPG	HTH-type transcriptional repressor PurR	purR	not found :(
A9QZW5	PUR5_YERPG	Phosphoribosylformylglycinamidine cyclo-ligase	purM	complement(3307987..3309030)
A9R2H1	PUR7_YERPG	Phosphoribosylaminoimidazole-succinocarboxamide synthase	purC	3322470..3323183

Координаты исследуемых генов были найдены в полном геноме бактерии (скачан из ENA/EMBL). Для каждого из генов выбранных белков были записаны координаты Upstream-региона из 100 нуклеотидов (то есть 100 нуклеотидов с 5'-стороны от статового кодона гена). Координаты Upstream-регионов приведены в табл.2. Ссылка на fasta-файл с вырезанными Upstream-регионами: Upstream.fasta

Табл. 2 Список выбранных белков c координатами Upstream-регионов из 100 нуклеотидов

Entry	Entry name	Upstream
A9R5W9	PURT_YERPG	1686996 - 1687096
A9QYM6	PURA_YERPG	1340471 - 1340571
A9R256	FOLD_YERPG	702333 - 702433
A9R7Z2	GUAA_YERPG	423770 - 423870
A9R8E1	PUR9_YERPG	487443 - 487543
A9QZB3	PURR_YERPG	:(
A9QZW5	PUR5_YERPG	3309030 - 3309130
A9R2H1	PUR7_YERPG	3322370 - 3322470

Для того, чтобы вырезать необходимые участки из файла с геномом, выполнялись следующие команды (приведены примеры для прямой и обратной цепей):

>descseq CP000901.txt -sbegin1 1686996 -send1 1687096 -osformat2 fasta -out purT -desc "up purT"

>descseq CP000901.txt -sbegin1 1340471 -send1 1340571 -sreverse1 -osformat2 fasta -out purA -desc "up purA"

Для поиска мотивов (3 мотива) в последовательностях, из командной строки была запущена программа MEME.

>ememe upstream.fasta -nmotifs 3 -revcomp

Результаты поиска мотивов с помощью программы MEME
Ссылка на полную выдачу MEME: meme.html
Разберём, что говорят эти результаты. Является данная последовательность мотивом или случайной находкой - позволяет определить его информационное содержание (Information Content). Оно приводится для каждого мотива. По грубым оценкам, слово длины n = I/2 встречается в геноме раз в 4^n пар нуклеотидов. Кроме того, для каждгог мотива приводится E-value. Оно показывает, насколько велика вероятность находки с таким же или большим весом. Визуалзируется мотив (наиболее правдоподобная его последовательность) с помощью LOGO. LOGO - это диаграмма, в которой высота столбца равна I рассматриваемой позиции (показывает вклад в суммарное I всего мотива), а высота букв равна произведению I столбца и вероятности встретить данную букву на данной позиции. Ниже приведены LOGO трёх найденных программой мотивов.