Поиск сигналов в промоторах бактерии Aeromonas allosaccharophila


Подготовка выборки промоторных областей и контроля

  1. Загрузил таблицу генов, представленных в геноме бактерии Aeromas allosaccharophila в Google Таблицы.
  2. С помощью фильтров выделил колонку первых нуклеотид для CDS положительной цепи хромосомы (NZ_CP065745.1) бактерии - результат сохранил в виде текстового файла.
  3. Далее воспользовался своим скриптом, который я писал в Google Collab - получил выборку из промоторов кодирующих белок генов.
  4. Воспользовался ещё одним скриптом и получил случайные подпосл-ти по 100 нуклеотид.

Поиск мотивов в контроле

  • meme control.txt -dna -nmotifs 5 -minw 6 -maxw 30

  • Выдача
    Рис. 1. Самый значимый из найденных мотивов для контроля (E-value = 3.9e-101). Число находок - 247.
  • fimo --norc -motif CWGVYCSAGVTSGRBSDSCAGCWSSTBSHS meme_out/meme.txt complete_genome.fasta

  • Выдача

    Рандомно отобранный мотив (рис. 1) внезапно обладает E-value аж -101 порядка. Впрочем, Information Content: 11.9 и Relative Entropy: 11 - не очень большие значения для такой длины посл-ти. Я склонен считать, что мотив получился так себе и обладает высоким E-value только за счёт того, что неоднозначные буквы занимают целый ряд позиций.


    Поиск мотивов в промоторах

  • meme promotors.txt -dna -nmotifs 5 -minw 6 -maxw 30

  • Выдача
    Рис. 2. Самый значимый из найденных мотивов для промоторов (E-value = 1.8e-014). Число находок - 55/500.

    Самый значимый по E-value мотив (рис. 2) как будто бы не слишком информативен (Relative Entropy: 15.6) - мало более или менее консервативных букв. Данный мотив представлен почти везде в участке [-100; 0]. Сложно сказать, что это за мотив, и какую он играет роль (если вообще играет).

    Рис. 3. Второй по значимости мотив (E-value = 5.3e-013), который, на мой взгляд, уже имеет больше смысла, чем пердыдущий. Число находок - 44/500.

    Второй по значимости мотив (рис. 3) представляет собой высококонсервативный ряд из тимина. У данного мотива относительная энтропия (Relative Entropy: 15.6) ниже, чем у предыдущего варианта - при меньшей длине он несёт ненамного меньше информации (Information Content первого: 16.2; Information Content второго: 14.2).

    Рис. 4. Третий по значимости мотив (E-value = 1.1e-002). Встречался 33 раза из возможных 500. Несколько напоминает консенсус последовательности Шайн-Дальгарно.

    Последний среди прошедших порог мотивов представлен на рис. 4. Данный мотив характеризуется крайне консервативной (и, как следствие, информативной) подпосл-тью AAGGAG (почти консенсус посл-ти Шайн-Дальгарно - AGGAGG). Если данный мотив действительно является посл-тью Шайн-Дальгарно для моей бактерии, то, видимо, он играет не слишком большую роль.

    Впрочем, мне могло просто не повезти с выборкой. Проведём поиск с помощью fimo.


    Поиск мотива MAAGGAGD

  • fimo --norc -motif MAAGGAGD meme_out/meme.txt ../complete_genome.fasta

  • Выдача

    Получили 609 значимых находок. Ожидал находок порядка 10 000. Видимо, данный мотив играет не слишком важную роль в матричных процессах.

    Попробуем поискать два других значимых мотива.

  • fimo --norc -motif SCWGSYSRCSGNVCTGSTGSYCGMCCTG ../p2.1/meme_out/meme.txt ../complete_genome.fasta

  • Выдача

    Получили 20695 находок мотива (рис. 2).

  • fimo --norc -motif SSBCYTTTTTTDTKY ../p2.1/meme_out/meme.txt ../complete_genome.fasta

  • Выдача

    Получили 998 находок мотива (рис. 3).


    Выводы

    Оказалось, что два мотива с наивысшим E-value (SCWGSYSRCSGNVCTGSTGSYCGMCCTG и SSBCYTTTTTTDTKY) наиболее представлены в бактерии Aeromonas allosaccharophila. Мотив MAAGGAGD довольно похож на консенсус посл-ти Шайн-Дальгарно, но он не слишком представлен.