Девятый практикум

Моя бактерия с первого семестра: Nitratireductor kimnyeongensis. GFF файл и FASTA файл

Сначала я воспользовался программой operon mapper, далее подал выход на код старшекурсника, получив тренировочную выборку, тестовую выборку и негативный контроль.

Код берет 100 нуклеотидов до оперона (промотр), и дальше сортирует все находки по группам.

Дальше я подал все на MEME, используя следующую команду:

meme term4v2-pr9-housekeeping.fasta -dna -nmotifs 3 -minw 6 -maxw 50

-dna показывает, что на вход дана ДНК, -nmotifs 3 ищет 3 мотива, -minw и -maxw ограничивают их минимальную и максимальную длинну.

Рисунок 1. Мотив ATATTDGCATACDVDMTGTATGTCAAKWTATATA, pvalue 9.9e-003.
Рисунок 2. Мотив KRGBBSYNSCHHTTCGSKSWVCGSMDGYKCKDSBGSCKSYHCGNGHDSYR, pvalue 2.6e+001.
Рисунок 3. Мотив GBNSHNHAAASMAVHAWWAHVHWDWDAANRVKWNTTTWTTHTWRBT, pvalue 4.2e+000.

Я выбрал мотиф ATATTDGCATACDVDMTGTATGTCAAKWTATATA как самый короткий с самым маленьким pvalue. В итоге выход был подан на fimo

fimo --o term4v2-pr9-fimo-test --motif ATATTDGCATACDVDMTGTATGTCAAKWTATATA --thresh 0.05 meme_out/meme.txt term4v2-pr9-promotors.fasta

fimo --o term4v2-pr9-fimo-control --motif ATATTDGCATACDVDMTGTATGTCAAKWTATATA --thresh 0.05 meme_out/meme.txt term4v2-pr9-negative.fasta

Как видно, в контроле гораздо меньше (тестовая - 10572, контроль - 551), то есть последовательность и в правду чаще встречается в промоторе, чем в случайной части генома.