| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
  |   |
Сигналы в нуклеотидных последовательностяхПрограмма МЕМЕВ файле pur28.fasta лежат последовательности ДНК E.coli, находящейся перед генами, регулируемыми белком PurR (пуриновым репрессором). При помощи МЕМЕ необходимо найти общий мотив в этих последовательностях (предполагаемый сигнал, узнаваемый белком PurR).Для выполнения задания зададим следующие параметры в МЕМЕ: - строго заданная длина мотива: 16 - число различных мотивов: 1 - распределение количества встреч для каждого мотива (либо один, либо вообще нет). Поиск по этим параметрам привел к таким результатам: ![]() Матрица PSSM:
Исходные последовательности (найденные мотивы подчеркнуты): >codB cggcactgtgtgccgatgcctgatgcgacgctgacgcgttttatcatgcctacggacctgaaccgtaggtcggataaggcgctcgcgtcgcatccgacaccatgctcagatgcctgatgcgacg ctgacgcgtcttatcaggcctacccactgtttttacaccgataatttttcccccacctttttgcactcattcatataaaaaatatatttccccacgaaaacgattgctttttatcttcagatga atagaatgcggcggattttttgggtttcaaacagcaaaaagggggaatttcgtgtcgcaagataacaactttagccaggggccagtcccgcagtcggcgcggaaaggggtattggcattgacgt tcgtcatgctgggattaaccttcttttc >purE agtgcgatggaaaaacatcaggtgcaatggctgatccacgggcatacccatcgcccggcggtgcatgaacttatcgccaatcagcaacctgcttttcgcgtggtactgggtgcctggcatacgg aaggttcaatggtgaaagtcacggcggatgacgttgagctgattcattttccgttttaaaaaacccgcaactttgctgatttcacagccacgcaaccgttttccttgctctctttccgtgctat tctctgtgccctctaaagccgagagttgtgcaccacaggagttttaagacgcatgtcttcccgcaataatccggcgcgtgtcgccatcgtgatggggtccaaaagcgactgggctaccatgcag ttcgccgccgaaatcttcgaaatcctga >pyrC gtacaaccggaaaaaatgcaaacggtgatgcaaacgttgcttccctatttgaaccaggcattacgcaattactttaaccagcaacctgcttacgtcctgcgcgaagatggcagccagggcgaag caatggcgaaaaaactggcgaaaggcattgaagtgaagccaggcgaaattgtcattccatttactgattaatcacgagggcgcattcgcgccctttatttttcgtgcaaaggaaaacgtttccg cttatcctttgtgtccggcaaaaacatcccttcagccggagcatagagattaatgactgcaccatcccaggtattaaagatccgccgcccagacgactggcaccttcacctccgcgatggcgac atgttaaaaactgtcgtgccatatacca >purR tcaagttttctccttttttattaccacacaaaaagtgatattacgcatttttacacactgtgatgaaaaaatctcccgtcatttataatgataagtgtttttaccacttccccttttcgtcaag atcggccaaaattccacgcttacactatttgcgtactggccattgaccccttcctgacgctccgtgtcgtttttccggcgtaccgcaacacttttgttgtgcgtaaggtgtgtaaaggcaaacg tttaccttgcgattttgcaggagctgaagttagggtctggagtgaaatggaatggcaacaataaaagatgtagcgaaacgagcaaacgtttccactacaactgtgtcacacgtgatcaacaaaa cacgtttcgtcgctgaagaaacgcgcaa >cvpA tctggcttaagtggcgtggtaatgggctatacgccgaattaatacggtcttgcctgatgcgacgctggcgcgtcttatcaggcctacgcaggggtagaaccgtaggtcggataaggcgtttacg ccgcatccgacacgcattgcccgatgccgcaaaggcataaaaagtcgatggcgttgaatattttttcagcgccatttttattgatgcgcgggaaggaaatccctacgcaaacgttttctttttc tgttagaatgcgccccgaacaggatgacagggcgtaaaatcgtgggacacatatggtctggattgattacgccataatcgcggtgattgctttttcctctctggttagcctgatccgcggcttt gttcgtgaagcgttatcgctggtgacat >purM acaaaaaaaatcgacggattatacctcctttcttcaaggcggcaatattcttttcgttgactttagtcaaaatgataacggtttgagataaagttattttatattcagatggttatgaaagaag attattccatccgaaaactaacctttaccctggcacaagtcttctttcgccgcgcgcctggggaaaagacgtgcaaaaaggttgtgtaaagcagtctcgcaaacgtttgctttccctgttagaa ttgcgccgaattttatttttctaccgcaagtaacgcgtggggacccaagcagtgaccgataaaacctctcttagctacaaagatgccggtgttgatattgacgcgggtaatgctctggttggaa gaatcaaaggcgtagtgaagaaaacgcg >guaB agtgaccggaagctggttgcgtgaaattagaaatttcgccgctgatccaaacctgtcccatctcatgctcaagcagcagacgaaccgtttgattcaggcgactaacggtaaaaattgcagggga ttgagaaggtaacatgtgagcgagatcaaattctaaatcagcaggttattcagtcgatagtaacccgcccttcggggatagcaagcattttttgcaaaaaggggtagatgcaatcggttacgct ctgtataatgccgcggcaatatttattaaccactctggtcgagatattgcccatgctacgtatcgctaaagaagctctgacgtttgacgacgttctcctcgttcctgctcactctaccgttctg ccgaatactgctgacctcagcacccagc >glnB ctgacctcatctccggtgattagtgatgcgctggtggagcaggcgctggagggtgaaaatacggcgctgccaacctttgttgaggcacgtaatcagtttgaactcaactatttgcgtaagctgc tgcaaatcaccaaaggcaacgtcacccacgcggcgagaatggcggggcgcaaccggacagaattttataaactgctttcccgacacgagctggatgcaaacgatttcaaggaatgaattggcgt tatgtgttacgtttagcagatcaaaagacaggcgaccttttcaaggaatagcatgaaaaagattgatgcgattataaaacccttcaagctggacgatgtccgcgaagcactggccgaagtcggt attaccggcatgacggtgaccgaagtga >purL ccagaatgccgatgaacagataattaatctttaattttttcaattagttaattctctgtgtcgtgcgcgtcccagcttgaaaaaacgtaataatagtgaaaggtttactcataaatgagcggca ttttgcgtaaacctgcgccagatggcaacttattacagccattggcggcacgcgttgctaattcacgatggtgattttatttccacgcaaacggtttcgtcagcgcatcagattctttataatg acgcccgtttcccccccttgggtacaccgaaagcttagaagacgagagacttatgatggaaattctgcgtggttcgcctgcactgtcggcattccgaatcaacaaactgctggcacgttttcag gctgccaggctcccggttcacaatattt >purA gaattcgacaatctggctggcgcttgccctggttttggtactggaaggtttagggccgatgctttacccgaaggcatggaagaagatgatctctgcgatgaccaatttgcccgataatatttta cgtcgttttggcggtggacttgtggttgcgggcgttgtggtctactacatgttgaggaaaacgattggctgaacaaaaaacagactgatcgaggtcatttttgagtgcaaaaagtgctgtaact ctgaaaaagcgatggtagaatccatttttaagcaaacggtgattttgaaaaatgggtaacaacgtcgtcgtactgggcacccaatggggtgacgaaggtaaaggtaagatcgtcgatcttctga ctgaacgggctaaatatgttgtacgcta Сравнение полученных результатов с реальными сайтами узнавания PurRПравильно нашлись мотивы вo всех последовательностях, кроме последней (purA), в которой мотивы вообще не совпадают:>purA gaattcgacaatctggctggcgcttgccctggttttggtactggaaggtttagggccgatgctttacccgaaggcatggaagaagatgatctctgcgatgaccaatttgcccgataatatttta cgtcgttttggcggtggacttgtggttgcgggcgttgtggtctactacatgttgaggaaaacgattggctgaacaaaaaacagactgatcgaggtcatttttgagtgcaaaaagtgctgtaact ctgaaaaagcgatggtagaatccatttttaagcaaacggtgattttgaaaaatgggtaacaacgtcgtcgtactgggcacccaatggggtgacgaaggtaaaggtaagatcgtcgatcttctga ctgaacgggctaaatatgttgtacgctaКрасным выделен реальный сайт узнавания purR, найденный МЕМЕ мотив подчеркнут. У правильно найденных мотивов совпадение неполное, координаты отличаются на один-два нуклеотида. Рассчитаем специфичность и чувствительность для проведенного поиска: Чувствительность (отношение числа правильных предсказаний к числу реальных сайтов) = 9/10 = 0.9, специфичность (отношение числа правильных предсказаний к общему числу предсказаний) = 9/10 = 0.9. Назад |