Сигналы, мотивы, PWM

Для выполнения практикума была выбрана бактерия Vibrio cholerae serotype O1. С помощью UniProt было найдено 24 аннотированных (Reviewed) записи с ключевым словом "Purine biosynthesis", из них 6 имеют мнемонику VIBC3, еще шесть - VIBCM, оставшиеся двенадцать обозначены как VIBCH. Для дальнейшего изучения был выбран штамм с мнемоникой VIBCH (Vibrio cholerae serotype O1 (strain ATCC 39315 / El Tor Inaba N16961)).

В Таблице 1 представлены названия выбранных мной десяти белков.

Entry Entry name Protein names Gene names Coordinates in genome

Q9KSM8

PURT_VIBCH

Formate-dependent phosphoribosylglycinamide formyltransferase

purT VC_1228

complement(1302698..1303879)

Q9KNX8

PURA_VIBCH

Adenylosuccinate synthetase

purA VC_2602

complement(2771350..2772648)

Q9KQQ6

FOLD_VIBCH

Bifunctional protein FolD

folD VC_1942

2093523..2094458

Q9KVT8

PURK_VIBCH

N5-carboxyaminoimidazole ribonucleotide synthase

purK VC_0051

complement(48324..49457)

Q9KTW2

GUAA_VIBCH

GMP synthase [glutamine-hydrolyzing]

guaA VC_0768

821588..823141

Q9KV81

PUR2_VIBCH

Phosphoribosylamine--glycine ligase

purD VC_0275

complement(279539..280828)

Q9KRC1

PURR_VIBCH

HTH-type transcriptional repressor PurR

purR VC_1721

1859521..1860531

Q9KPY6

PUR5_VIBCH

Phosphoribosylformylglycinamidine cyclo-ligase

purM VC_2226

2380542..2381582

Q9KV80

PUR9_VIBCH

Bifunctional purine biosynthesis protein PurH

purH VC_0276

complement(280887..282479)

Q9KSR6

PUR7_VIBCH

Phosphoribosylaminoimidazole-succinocarboxamide synthase

purC VC_1190

complement(1264436..1265653)


Затем мною был найден полный геном бактерии в базе данных EMBL. АС найденного генома AE003852.

Вырезанные из файла EMBL последовательности всех выбранных Upstream-регионов можно посмотреть в файле upstream.fasta.

С помощью программы
ememe upstream.fasta meme -nmotifs 3 -revcomp
производился поиск мотивов (на обеих цепях ДНК с выдачей 3 различных мотивов).
Результат работы программы можно увидеть, перейдя по ссылке.

Различная информация о мотивах представлена в Таблице 2.

Номер мотива Сколько белков включает Information Content (bits) Relative Entropy (bits) E-value width

I

6

16.0

16.0

8.2e-001 (3.0166)

9

II

6

18.5

19.4

6.7e+001 (18.2125)

15

III

8

11.1

11.0

1.0e+002 (7.3891)

8


Из Таблицы 2 ясно видно, что самым малоконсервативным является третий мотив. Не смотря на то, что он включает в себя 8 белков из 10, он обладает высоким значением E-value и самыми маленькими - информативности и энтропии.
Более консервативным можно считать мотивы один и два. Первый обладает самым маленьким значением E-value. И первый и второй мотивы включают в себя 6 из 10 белков, однако их значения информативности и энтропии примерно в полтора раза выше аналогичных значений третьего мотива. Но значение E-value второго мотива почти в шесть раз больше, чем у первого.

Мною был найден и частично изучен гайд, названный Discovering Novel Sequence Motifs with MEME. В нем описано как общее представление о программе (включая примеры типичных мотивов), так и более конкретные инструкции для различных задач. Подробное описание действий и требований к входящей информации, а также изображения различных экранов ввода, проверки и др.



На Главную страницу
На страницу Семестра