Сигналы в нуклеотидных последовательностях. MEME
Был дан файл, содержащие последовательности ДНК E.coli, находящейся перед генами, регулируемыми белком PurR (пуриновым репрессором).
Пользуясь сервером MEME, найдите общий мотив в предложенных последовательностях (предполагаемый сигнал, узнаваемый белком PurR)
После установления следующих параметров для MEME:
и загрузки файла, содержащие последовательности ДНК E.coli, и небольшого ожидания был полчучен отчет, откуда были полученны все необходимые данные.
LOGO:
Матрица PSSM:
№ |
A |
С |
G |
T |
Паттерн |
1 |
86 |
35 |
-6 |
-1045 |
W |
2 |
122 |
-1045 |
-65 |
-36 |
A |
3 |
-95 |
-6 |
135 |
-195 |
G |
4 |
-1045 |
-1045 |
181 |
-36 |
G |
5 |
137 |
-165 |
-165 |
-95 |
A |
6 |
186 |
-1045 |
-1045 |
-1045 |
A |
7 |
186 |
-1045 |
-1045 |
-1045 |
A |
8 |
151 |
-65 |
-1045 |
-195 |
A |
9 |
-1045 |
216 |
-1045 |
-1045 |
C |
10 |
-1045 |
-1045 |
216 |
-1045 |
G |
11 |
37 |
-165 |
-165 |
86 |
M |
12 |
-1045 |
-1045 |
-1045 |
186 |
T |
13 |
-1045 |
-1045 |
-165 |
175 |
T |
14 |
-1045 |
-65 |
193 |
-1045 |
G |
15 |
-1045 |
193 |
-65 |
-1045 |
C |
16 |
-36 |
-65 |
135 |
-195 |
G |
Таблица найденных мотивов (с P-value):
Имя посдедовательности |
Направление цепи |
Координата первого нуклеотида |
P-VALUE |
---|---|---|---|
cvpA |
- |
179 |
5.76e-09 |
pyrC |
+ |
182 |
7.61e-09 |
purE |
- |
164 |
7.61e-09 |
purR |
- |
190 |
4.55e-08 |
carA |
- |
14 |
6.03e-08 |
purL |
- |
159 |
6.03e-08 |
folD |
+ |
270 |
8.39e-08 |
purM |
- |
171 |
1.10e-07 |
codB |
+ |
166 |
1.61e-07 |
purA |
+ |
127 |
1.79e-07 |
araB |
+ |
240 |
1.92e-06 |
guaB |
- |
182 |
2.03e-06 |
rbsD |
+ |
175 |
2.40e-06 |
glnB |
- |
168 |
2.65e-06 |
Исходные последовательности с подчеркнутыми сигналами:
>codB tacggacctgaaccgtaggtcggataaggcgctcgcgtcgcatccgacaccatgctcagatgcctgatgcgacgc tgacgcgtcttatcaggcctacccactgtttttacaccgataatttttcccccacctttttgcactcattcatat aaaaaatatatttccccacgaaaacgattgctttttatcttcagatgaatagaatgcggcggattttttgggttt caaacagcaaaaagggggaatttcgtgtcgcaagataacaactttagccaggggccagtcccgcagtcggcgcgg >purE Tcgcccggcggtgcatgaacttatcgccaatcagcaacctgcttttcgcgtggtactgggtgcctggcatacgga aggttcaatggtgaaagtcacggcggatgacgttgagctgattcattttccgttttaaaaaacccgcaactttgc tgatttcacagccacgcaaccgttttccttgctctctttccgtgctattctctgtgccctctaaagccgagagtt gtgcaccacaggagttttaagacgcatgtcttcccgcaataatccggcgcgtgtcgccatcgtgatggggtccaa >pyrC Gaaccaggcattacgcaattactttaaccagcaacctgcttacgtcctgcgcgaagatggcagccagggcgaagc aatggcgaaaaaactggcgaaaggcattgaagtgaagccaggcgaaattgtcattccatttactgattaatcacg agggcgcattcgcgccctttatttttcgtgcaaaggaaaacgtttccgcttatcctttgtgtccggcaaaaacat cccttcagccggagcatagagattaatgactgcaccatcccaggtattaaagatccgccgcccagacgactggca >purR Ttacacactgtgatgaaaaaatctcccgtcatttataatgataagtgtttttaccacttccccttttcgtcaaga tcggccaaaattccacgcttacactatttgcgtactggccattgaccccttcctgacgctccgtgtcgtttttcc ggcgtaccgcaacacttttgttgtgcgtaaggtgtgtaaaggcaaacgtttaccttgcgattttgcaggagctga agttagggtctggagtgaaatggaatggcaacaataaaagatgtagcgaaacgagcaaacgtttccactacaact >cvpA Tgcctgatgcgacgctggcgcgtcttatcaggcctacgcaggggtagaaccgtaggtcggataaggcgtttacgc cgcatccgacacgcattgcccgatgccgcaaaggcataaaaagtcgatggcgttgaatattttttcagcgccatt tttattgatgcgcgggaaggaaatccctacgcaaacgttttctttttctgttagaatgcgccccgaacaggatga cagggcgtaaaatcgtgggacacatatggtctggattgattacgccataatcgcggtgattgctttttcctctct >purM Ttttcgttgactttagtcaaaatgataacggtttgagataaagttattttatattcagatggttatgaaagaaga ttattccatccgaaaactaacctttaccctggcacaagtcttctttcgccgcgcgcctggggaaaagacgtgcaa aaaggttgtgtaaagcagtctcgcaaacgtttgctttccctgttagaattgcgccgaattttatttttctaccgc aagtaacgcgtggggacccaagcagtgaccgataaaacctctcttagctacaaagatgccggtgttgatattgac >guaB Acctgtcccatctcatgctcaagcagcagacgaaccgtttgattcaggcgactaacggtaaaaattgcaggggat tgagaaggtaacatgtgagcgagatcaaattctaaatcagcaggttattcagtcgatagtaacccgcccttcggg gatagcaagcattttttgcaaaaaggggtagatgcaatcggttacgctctgtataatgccgcggcaatatttatt aaccactctggtcgagatattgcccatgctacgtatcgctaaagaagctctgacgtttgacgacgttctcctcgt >glnB Gggtgaaaatacggcgctgccaacctttgttgaggcacgtaatcagtttgaactcaactatttgcgtaagctgct gcaaatcaccaaaggcaacgtcacccacgcggcgagaatggcggggcgcaaccggacagaattttataaactgct ttcccgacacgagctggatgcaaacgatttcaaggaatgaattggcgttatgtgttacgtttagcagatcaaaag acaggcgaccttttcaaggaatagcatgaaaaagattgatgcgattataaaacccttcaagctggacgatgtccg >purL Attctctgtgtcgtgcgcgtcccagcttgaaaaaacgtaataatagtgaaaggtttactcataaatgagcggcat tttgcgtaaacctgcgccagatggcaacttattacagccattggcggcacgcgttgctaattcacgatggtgatt ttatttccacgcaaacggtttcgtcagcgcatcagattctttataatgacgcccgtttcccccccttgggtacac cgaaagcttagaagacgagagacttatgatggaaattctgcgtggttcgcctgcactgtcggcattccgaatcaa >purA Tagggccgatgctttacccgaaggcatggaagaagatgatctctgcgatgaccaatttgcccgataatattttac gtcgttttggcggtggacttgtggttgcgggcgttgtggtctactacatgttgaggaaaacgattggctgaacaa aaaacagactgatcgaggtcatttttgagtgcaaaaagtgctgtaactctgaaaaagcgatggtagaatccattt ttaagcaaacggtgattttgaaaaatgggtaacaacgtcgtcgtactgggcacccaatggggtgacgaaggtaaa >folD Aaattctttttatattgtcaggtatttcttaaattatcttaatccttagacaaggaaataaatcagttccagatt tacaacgccatcatggacgaaaaatgaagctttcagtctcagcgacggtgcgcctcaccttcgcaagaggtcgct tcacgcgataaatctgaaacgaaacctgacagcgcgccccgcttctgacaaaataggcgcatccccttcgatcta cgtaacagatggaatcctctctctgatggcagcaaagattattgacggtaaaacgattgcgcagcaggtgcgctc >rpiA ttgaatggcgtggcgttattgcctcaatttgcctgtaaacaggggcttgcgaacggtgaactggtgcgcctgttt gcaccgtggagcggcatacccagaccgttgtatgctttatttgcggggcgaaaggggatgcctgccattgcgcga tattttatggatgagttaaccacgcggcttgccaacggggtctgaatcgctttttttgtatataatgcgtgtgaa atttcataccacaggcgaaacgatcatgacgcaggatgaattgaaaaaagcagtaggatgggcggcacttcagta >carA caatcttcttgctgcgcaagcgttttccagaacaggttagatgatctttttgtcgcttaatgcctgtaaaacatg catgagccacaaaataatataaaaaatcccgccattaagttgacttttagcgcccatatctccagaatgccgccg tttgccagaaattcgtcggtaagcagatttgcattgatttacgtcatcattgtgaattaatatgcaaataaagtg agtgaatattctctggagggtgttttgattaagtcagcgctattggttctggaagacggaacccagtttcacggt >pdhR tgaatcggttcaattcggatttttatagtttaataatcgttaaaaaactcctttcctacgtaaagtctacatttg tgcatagttacaactttgaaacgttatatatgtcaagttgttaaaatgtgcacagtttcatgatttcaatcaaaa cctgtatggacataaggtgaatactttgttactttagcgtcacagacatgaaattggtaagaccaattgacttcg gcaagtggcttaagacaggaactcatggcctacagcaaaatccgccaaccaaaactctccgatgtgattgagcag >fixA tcgttaattttgattaataatcagtttgttatgctctgttgtgagtaaaaaataacatctgactttcaatattgg tgatccataaaacaatattgaaaatttctttttgctacgccgtgttttcaatattggtgaggaacttaacaatat tgaaagttggatttatctgcgtgtgacattttcaatattggtgattaaagttttatttcaaaattaaagggcgtg atatctgtaattaacaccaccgatatgaacgacgtttccttcatgatttctggagatgcaatgaagattattact >rbsD Atttgcgtctgcgcggcaagctgtacttgctgctgcaacgtaatgcgctgcgtgcaccagatcaatttgaaatcc cgccaaacagggttatcgaactgggtactcaggtcgaaatctaacgccagacgcctcctttcttcataagggggc gtttttgttttcatggttaatcaccatgtaaaacgtttcgaggttgatcacatttccgtaacgtcacgatggttt tcccaactcagtcaggattaaactgtgggtcagcgaaacgtttcgctgatggagaaaaaaatgaaaaaaggcacc >araB Tcgctaacccaaccggtaaccccgcttattaaaagcattctgtaacaaagcgggaccaaagccatgacaaaaacg cgtaacaaaagtgtctataatcacggcagaaaagtccacattgattatttgcacggcgtcacactttgctatgcc atagcatttttatccataagattagcggatcctacctgacgctttttatcgcaactctctactgtttctccatac ccgtttttttggatggagtgaaacgatggcgattgcaattggcctcgattttggcagtgattctgtgcgagcttt
Неправильно предсказанный:
purA Tagggccgatgctttacccgaaggcatggaagaagatgatctctgcgatgaccaatttgcccgataatattttac gtcgttttggcggtggacttgtggttgcgggcgttgtggtctactacatgttgaggaaaacgattggctgaacaa aaaacagactgatcgaggtcatttttgagtgcaaaaagtgctgtaactctgaaaaagcgatggtagaatccattt ttaagcaaacggtgattttgaaaaatgggtaacaacgtcgtcgtactgggcacccaatggggtgacgaaggtaaa
Всего в моем варианте было 17 последовательносте в 14 из которых MEME нашел мотивы. Всего реальных сайтов узнавания PurR 10 штук. В последовательности purA сайт узнавания был найден неверно. Посчитаем чувствительность и специфичность, учитывая, что чувствительность - это отношение числа правильных предсказаний к числу реальных сайтов, специфичность — отношение числа правильных предсказаний к общему числу предсказаний (правильных и неправильных).. При подсчёте чувствительности и специфичности реальный сайт считайте предсказанным верно, если он пересекается с предсказанием по 8 или более нуклеотидам.
Чувствительность = правильно предсказанных / всего правильных = 9 / 10 = 0.9
Специфичность = правильно предсказанных / всего предсказанных = 9 / 14 = 0.642
Как видно из подсчетов в данном случае Чувствительность у MEME довольно не плохая, однако специфичность на среднем уровне.