Сигналы в нуклеотидных последовательностях


  1. Имея последовательности ДНК E. coli, находящейся перед несколькими генами, регулируемыми белком PurR (пуриновым репрессором), с помощью сервера MEME найдем общий мотив в предложенных последоватнльностях, то есть предполагаемый сигнал, который узнает белок PurR.

    Для этого введем в поле "name of file" сервера MEME файл с данными последовательностями и установим параметры:
    распределение количества встреч каждого мотива: "Zero or one per sequence" (не более одного мотива на нуклеотидную последовательность);
    максимальная и минимальная длина мотива: по 16 (ищем мотивы строго заданной длины);
    число различных мотивов: 1.

    Нажмем "Start search" и перейдем по ссылке "MEME output as HTML".

    В результате получим следующую информацию о предполагаемых сигналах в данных последовательностях (сайтах, с которыми взаимодействует белок PurR):

    Диаграмма Logo, отображающая частоту встречаемости нуклеотида (сравнивая все последовательности) на каждой позиции предполагаемого сигнала:


    Матрица PSSM, ставящая каждой букве на каждой позиции в последовательности определенный положительный или отрицательный вес:
    Позиция мотива A C G T Паттерн (нуклеотиды, дающие положительный вклад)
    1 151 -1023 7 -1023 R (A или G)
    2 -65 107 -51 -65 C
    3 -1023 -151 195 -1023 G
    4 -1023 195 -151 -1023 C
    5 193 -1023 -1023 -1023 A
    6 193 -1023 -1023 -1023 A
    7 93 -151 -151 34 W (А или Т)
    8 -1023 207 -1023 -1023 C
    9 -1023 -1023 207 -1023 G
    10 -165 -1023 -51 151 T
    11 -1023 -1023 -1023 193 T
    12 -1023 -1023 -1023 193 T
    13 -65 -1023 -151 151 T
    14 -165 195 -1023 -1023 C
    15 -165 107 49 -165 S (G или C)
    16 -7 -51 -1023 115 W (A или Т)


    Таблица найденных мотивов (с P-value):
    Имя последовательности Направление цепи Координата первого нуклеотида P-value
    purE + 313 6.77e-09
    purL + 308 7.68e-09
    cvpA + 328 8.75e-09
    codB - 317 1.11e-08
    purR + 339 2.25e-08
    pyrC - 333 5.65e-08
    carA + 163 6.71e-08
    purA - 278 1.03e-07
    purM - 320 1.85e-07
    folD - 421 2.78e-07
    glnB + 317 5.79e-07
    guaB + 331 5.79e-07


    Таким образом, по результатам MEME в исходных последовательностях были найдены следующие сигналы:
    >codB
    tcctggagatctgacgaccattgatgatcctgcgtcgttggatcagatccgccaggcgatggaagagtaggttattgtcggatgcgtcgcgcggtgcatc
    cggcactgtgtgccgatgcctgatgcgacgctgacgcgttttatcatgcctacggacctgaaccgtaggtcggataaggcgctcgcgtcgcatccgacac
    catgctcagatgcctgatgcgacgctgacgcgtcttatcaggcctacccactgtttttacaccgataatttttcccccacctttttgcactcattcatat
    aaaaaatatatttccccacgaaaacgattgctttttatcttcagatgaatagaatgcggcggattttttgggtttcaaacagcaaaaagggggaatttcg
    tgtcgcaagataacaactttagccaggggccagtcccgcagtcggcgcggaaaggggtattggcattgacgttcgtcatgctgggattaaccttcttttc
    
    >purE
    tgtgcgcaaacgcattgccgcgcgaatgcgcgcgaacagcaaagaagccaacagcagtaaatcgctggcgatcatggacgttaaccaaaacgcggtggtc
    agtgcgatggaaaaacatcaggtgcaatggctgatccacgggcatacccatcgcccggcggtgcatgaacttatcgccaatcagcaacctgcttttcgcg
    tggtactgggtgcctggcatacggaaggttcaatggtgaaagtcacggcggatgacgttgagctgattcattttccgttttaaaaaacccgcaactttgc
    tgatttcacagccacgcaaccgttttccttgctctctttccgtgctattctctgtgccctctaaagccgagagttgtgcaccacaggagttttaagacgc
    atgtcttcccgcaataatccggcgcgtgtcgccatcgtgatggggtccaaaagcgactgggctaccatgcagttcgccgccgaaatcttcgaaatcctga
    
    >pyrC
    tcagaaagcgaccatgaaactgaagctgaaagcgctgcccgtgtttgataaagaaaaaggtgcgatcttcctgaaagagatggaagtggtcgatgcgacg
    gtacaaccggaaaaaatgcaaacggtgatgcaaacgttgcttccctatttgaaccaggcattacgcaattactttaaccagcaacctgcttacgtcctgc
    gcgaagatggcagccagggcgaagcaatggcgaaaaaactggcgaaaggcattgaagtgaagccaggcgaaattgtcattccatttactgattaatcacg
    agggcgcattcgcgccctttatttttcgtgcaaaggaaaacgtttccgcttatcctttgtgtccggcaaaaacatcccttcagccggagcatagagatta
    atgactgcaccatcccaggtattaaagatccgccgcccagacgactggcaccttcacctccgcgatggcgacatgttaaaaactgtcgtgccatatacca
    
    >purR
    tcgagaggaaatcagtgcagcgcggcagtcaaacccacggctacgatcaaaccgaggacgataatcgttgttaccagtgaaaatttaaggtcggtgctca
    tcaagttttctccttttttattaccacacaaaaagtgatattacgcatttttacacactgtgatgaaaaaatctcccgtcatttataatgataagtgttt
    ttaccacttccccttttcgtcaagatcggccaaaattccacgcttacactatttgcgtactggccattgaccccttcctgacgctccgtgtcgtttttcc
    ggcgtaccgcaacacttttgttgtgcgtaaggtgtgtaaaggcaaacgtttaccttgcgattttgcaggagctgaagttagggtctggagtgaaatggaa
    tggcaacaataaaagatgtagcgaaacgagcaaacgtttccactacaactgtgtcacacgtgatcaacaaaacacgtttcgtcgctgaagaaacgcgcaa
    
    >cvpA
    gccatccacgccagtgcagggtaaaattacccgtattctggttgggccggatgcctcgaaagataagctgaaaggttcgctgggtgagttgaagcaactt
    tctggcttaagtggcgtggtaatgggctatacgccgaattaatacggtcttgcctgatgcgacgctggcgcgtcttatcaggcctacgcaggggtagaac
    cgtaggtcggataaggcgtttacgccgcatccgacacgcattgcccgatgccgcaaaggcataaaaagtcgatggcgttgaatattttttcagcgccatt
    tttattgatgcgcgggaaggaaatccctacgcaaacgttttctttttctgttagaatgcgccccgaacaggatgacagggcgtaaaatcgtgggacacat
    atggtctggattgattacgccataatcgcggtgattgctttttcctctctggttagcctgatccgcggctttgttcgtgaagcgttatcgctggtgacat
    
    >purM
    ggtgctgatatcttgctcacgcatcagtcccagcttgtgtttgacgagtgggtgtttgacttccacgatcttcatactctttctcctttgaggggcagcc
    acaaaaaaaatcgacggattatacctcctttcttcaaggcggcaatattcttttcgttgactttagtcaaaatgataacggtttgagataaagttatttt
    atattcagatggttatgaaagaagattattccatccgaaaactaacctttaccctggcacaagtcttctttcgccgcgcgcctggggaaaagacgtgcaa
    aaaggttgtgtaaagcagtctcgcaaacgtttgctttccctgttagaattgcgccgaattttatttttctaccgcaagtaacgcgtggggacccaagcag
    tgaccgataaaacctctcttagctacaaagatgccggtgttgatattgacgcgggtaatgctctggttggaagaatcaaaggcgtagtgaagaaaacgcg
    
    >guaB
    acttgttgcccatgctgtgggcggaaggtcacccggcggttgctgttgcggaacatcgcgcagcgtacctgggcggtgtcgtctttgagtgtaaagtacc
    agtgaccggaagctggttgcgtgaaattagaaatttcgccgctgatccaaacctgtcccatctcatgctcaagcagcagacgaaccgtttgattcaggcg
    actaacggtaaaaattgcaggggattgagaaggtaacatgtgagcgagatcaaattctaaatcagcaggttattcagtcgatagtaacccgcccttcggg
    gatagcaagcattttttgcaaaaaggggtagatgcaatcggttacgctctgtataatgccgcggcaatatttattaaccactctggtcgagatattgccc
    atgctacgtatcgctaaagaagctctgacgtttgacgacgttctcctcgttcctgctcactctaccgttctgccgaatactgctgacctcagcacccagc
    
    >glnB
    tgtccgcgcgttctctaccgatgcgatgaaacgcctgatgaccgcgagctggccgggtaatgtgcgccagttggtcaacgtgattgaacagtgcgtggcg
    ctgacctcatctccggtgattagtgatgcgctggtggagcaggcgctggagggtgaaaatacggcgctgccaacctttgttgaggcacgtaatcagtttg
    aactcaactatttgcgtaagctgctgcaaatcaccaaaggcaacgtcacccacgcggcgagaatggcggggcgcaaccggacagaattttataaactgct
    ttcccgacacgagctggatgcaaacgatttcaaggaatgaattggcgttatgtgttacgtttagcagatcaaaagacaggcgaccttttcaaggaatagc
    atgaaaaagattgatgcgattataaaacccttcaagctggacgatgtccgcgaagcactggccgaagtcggtattaccggcatgacggtgaccgaagtga
    
    >purL
    ctcacacgcaactctccccgcgcttgaatggcggcgatacggttgtcggctttaccaaaccagggaatggatggccagagagcgaccgcgagcagcagtg
    ccagaatgccgatgaacagataattaatctttaattttttcaattagttaattctctgtgtcgtgcgcgtcccagcttgaaaaaacgtaataatagtgaa
    aggtttactcataaatgagcggcattttgcgtaaacctgcgccagatggcaacttattacagccattggcggcacgcgttgctaattcacgatggtgatt
    ttatttccacgcaaacggtttcgtcagcgcatcagattctttataatgacgcccgtttcccccccttgggtacaccgaaagcttagaagacgagagactt
    atgatggaaattctgcgtggttcgcctgcactgtcggcattccgaatcaacaaactgctggcacgttttcaggctgccaggctcccggttcacaatattt
    
    >purA
    cttccgcaacgcgttaatataacgactgcggtacaggtcaataaagccaccgcatcctcagggatgtcggtggttttctttttctataaggataatgaat
    gaattcgacaatctggctggcgcttgccctggttttggtactggaaggtttagggccgatgctttacccgaaggcatggaagaagatgatctctgcgatg
    accaatttgcccgataatattttacgtcgttttggcggtggacttgtggttgcgggcgttgtggtctactacatgttgaggaaaacgattggctgaacaa
    aaaacagactgatcgaggtcatttttgagtgcaaaaagtgctgtaactctgaaaaagcgatggtagaatccatttttaagcaaacggtgattttgaaaaa
    tgggtaacaacgtcgtcgtactgggcacccaatggggtgacgaaggtaaaggtaagatcgtcgatcttctgactgaacgggctaaatatgttgtacgcta
    
    >folD
    tagtagtaaattcctttttatcctctaagaatgtcttaattgaaaatatgcactctattctaaaaaatagagagccccgttagatgaatacttccgcgca
    aaatatattcaacacaaatatagacctgaagcggtaaattaccaggctgaaaattctttttatattgtcaggtatttcttaaattatcttaatccttaga
    caaggaaataaatcagttccagatttacaacgccatcatggacgaaaaatgaagctttcagtctcagcgacggtgcgcctcaccttcgcaagaggtcgct
    tcacgcgataaatctgaaacgaaacctgacagcgcgccccgcttctgacaaaataggcgcatccccttcgatctacgtaacagatggaatcctctctctg
    atggcagcaaagattattgacggtaaaacgattgcgcagcaggtgcgctctgaagttgctcaaaaagttcaggcgcgtattgcagccggactgcgggcac
    
    >rpiA
    ttttcctgcactatgacacaattttgtgtcaggttgcatataccgaagccgtcggcgggtaacatttgtatccgtggttaaaagcgcagcttaaaagatc
    agggatttgcgctaatgcatttcgctcagcgagttcgcgccctggttgtgttgaatggcgtggcgttattgcctcaatttgcctgtaaacaggggcttgc
    gaacggtgaactggtgcgcctgtttgcaccgtggagcggcatacccagaccgttgtatgctttatttgcggggcgaaaggggatgcctgccattgcgcga
    tattttatggatgagttaaccacgcggcttgccaacggggtctgaatcgctttttttgtatataatgcgtgtgaaatttcataccacaggcgaaacgatc
    atgacgcaggatgaattgaaaaaagcagtaggatgggcggcacttcagtatgttcagcccggcaccattgttggtgtaggtacaggttccaccgccgcac
    
    >carA
    ggctttaatttttggcccttttatttttggtgttatgtttttaaattgtctataagtgccaaaaattacatgttttgtcttctgtttttgttgttttaat
    gtaaattttgaccatttggtccacttttttctgctcgtttttatttcatgcaatcttcttgctgcgcaagcgttttccagaacaggttagatgatctttt
    tgtcgcttaatgcctgtaaaacatgcatgagccacaaaataatataaaaaatcccgccattaagttgacttttagcgcccatatctccagaatgccgccg
    tttgccagaaattcgtcggtaagcagatttgcattgatttacgtcatcattgtgaattaatatgcaaataaagtgagtgaatattctctggagggtgttt
    tgattaagtcagcgctattggttctggaagacggaacccagtttcacggtcgggccataggggcaacaggttcggcggttggggaagtcgttttcaatac
    
  2. Теперь сравним результаты, полученные с помощью MEME, с экспериментально установленными сайтами узнавания PurR.

    МEME предсказал сайт связывания с белком в 12 последовательностях из 13. В реальности он встречается в 10 последовательностях (в последовательностях carA и folD сайта нет, хотя MEME его в них предсказал). В последовательности purA MEME предсказал сайт не в том месте, где он расположен на самом деле. На самом деле он располагается здесь:
    >purA
    cttccgcaacgcgttaatataacgactgcggtacaggtcaataaagccaccgcatcctcagggatgtcggtggttttctttttctataaggataatgaat
    gaattcgacaatctggctggcgcttgccctggttttggtactggaaggtttagggccgatgctttacccgaaggcatggaagaagatgatctctgcgatg
    accaatttgcccgataatattttacgtcgttttggcggtggacttgtggttgcgggcgttgtggtctactacatgttgaggaaaacgattggctgaacaa
    aaaacagactgatcgaggtcatttttgagtgcaaaaagtgctgtaactctgaaaaagcgatggtagaatccatttttaagcaaacggtgattttgaaaaa
    tgggtaacaacgtcgtcgtactgggcacccaatggggtgacgaaggtaaaggtaagatcgtcgatcttctgactgaacgggctaaatatgttgtacgcta
    

    Подсчитаем чувствительность и специфичность. Чувствительность - отношение числа правильных предсказаний к числу реальных сайтов; специфичность - отношение числа правильных предсказаний к общему числу предсказаний (правильных и неправильных). Будем считать реальный сайт предсказанным верно, если он пересекается с предсказанием по 8 или более нуклеотидам.
    Итак, чувствительность в данном случае равна 9 / 10 = 0.9, специфичность равна 9 / 12 = 0.75.

Назад