Сигналы, мотивы, PWM
Для выполнения практикума была выбрана бактерия
Vibrio cholerae serotype O1. С помощью UniProt было найдено 24
аннотированных (Reviewed) записи с ключевым словом "Purine biosynthesis", из них 6 имеют мнемонику VIBC3, еще шесть - VIBCM,
оставшиеся двенадцать обозначены как VIBCH. Для дальнейшего изучения был выбран штамм с мнемоникой VIBCH
(
Vibrio cholerae serotype O1 (strain ATCC 39315 / El Tor Inaba N16961)).
В Таблице 1 представлены названия выбранных мной десяти белков.
Entry |
Entry name |
Protein names |
Gene names |
Coordinates in genome |
Q9KSM8 |
PURT_VIBCH |
Formate-dependent phosphoribosylglycinamide formyltransferase |
purT VC_1228 |
complement(1302698..1303879) |
Q9KNX8 |
PURA_VIBCH |
Adenylosuccinate synthetase |
purA VC_2602 |
complement(2771350..2772648) |
Q9KQQ6 |
FOLD_VIBCH |
Bifunctional protein FolD |
folD VC_1942 |
2093523..2094458 |
Q9KVT8 |
PURK_VIBCH |
N5-carboxyaminoimidazole ribonucleotide synthase |
purK VC_0051 |
complement(48324..49457) |
Q9KTW2 |
GUAA_VIBCH |
GMP synthase [glutamine-hydrolyzing] |
guaA VC_0768 |
821588..823141 |
Q9KV81 |
PUR2_VIBCH |
Phosphoribosylamine--glycine ligase |
purD VC_0275 |
complement(279539..280828) |
Q9KRC1 |
PURR_VIBCH |
HTH-type transcriptional repressor PurR |
purR VC_1721 |
1859521..1860531 |
Q9KPY6 |
PUR5_VIBCH |
Phosphoribosylformylglycinamidine cyclo-ligase |
purM VC_2226 |
2380542..2381582 |
Q9KV80 |
PUR9_VIBCH |
Bifunctional purine biosynthesis protein PurH |
purH VC_0276 |
complement(280887..282479) |
Q9KSR6 |
PUR7_VIBCH |
Phosphoribosylaminoimidazole-succinocarboxamide synthase |
purC VC_1190 |
complement(1264436..1265653) |
Затем мною был найден полный геном бактерии в базе данных EMBL. АС найденного генома AE003852.
Вырезанные из файла EMBL последовательности всех выбранных Upstream-регионов можно посмотреть в файле
upstream.fasta.
С помощью программы
ememe upstream.fasta meme -nmotifs 3 -revcomp
производился поиск мотивов (на обеих цепях ДНК с выдачей 3 различных мотивов).
Результат работы программы можно увидеть, перейдя по
ссылке.
Различная информация о мотивах представлена в Таблице 2.
Номер мотива |
Сколько белков включает |
Information Content (bits) |
Relative Entropy (bits) |
E-value |
width |
I |
6 |
16.0 |
16.0 |
8.2e-001 (3.0166) |
9 |
II |
6 |
18.5 |
19.4 |
6.7e+001 (18.2125) |
15 |
III |
8 |
11.1 |
11.0 |
1.0e+002 (7.3891) |
8 |
Из Таблицы 2 ясно видно, что самым малоконсервативным является третий мотив. Не смотря на то, что он включает в себя 8 белков из 10, он обладает
высоким значением E-value и самыми маленькими - информативности и энтропии.
Более консервативным можно считать мотивы один и два. Первый обладает самым маленьким значением E-value. И первый и второй мотивы
включают в себя 6 из 10 белков, однако их значения информативности и энтропии примерно в полтора раза выше аналогичных значений третьего мотива.
Но значение E-value второго мотива почти в шесть раз больше, чем у первого.
Мною был найден и частично изучен гайд, названный
Discovering Novel Sequence Motifs with MEME.
В нем описано как общее представление о программе (включая примеры типичных мотивов), так и более конкретные инструкции для различных задач.
Подробное описание действий и требований к входящей информации, а также изображения различных экранов ввода, проверки и др.
На Главную страницу
На страницу Семестра