Из базы данных NCBI Genome была скачана последовательность хромосомы бактерии Shewanella baltica. AC сборки GCF_000178875.2.
С помощью сервера Operon Mapper был составлен список оперонов, находящихся на данной хромосоме.
Для составления материалов обучения и тестирования написан скрипт на Python3. Он принимает на вход FASTA-файл с геномом бактерии и таблицу-выходной файл Operon Mapper. На выходе пользователь получает 3 FASTA-файла:
learn.fa - 30 последовательностей промоторов генов тРНК на плюс-цепи генома бактерии. Это материал обучения. Гены тРНК я выбрал как гены домашнего хозяйства.
try.fa - 200 оперонов белок-кодирующих генов плюс-цепи того же генома. Это материал тестирования.
neg.fa - негативный контроль. 30 случайно сгенерированных последовательностей. Это негативный контроль.
Все последовательности в этих файлах длиной 100 нуклеотидов.
На сервере Kodomo для материала обучения локально была запущена программа MEME для поиска мотивов:
meme learn.fa -dna -nmotifs 3 -minw 6 -text > meme.txt
Выходные данные - в файле meme.txt. Это совокупность таблиц, содержащих информацию о последовательностях входного файла и о мотивах, которые нашлись в них. Как и было задано программе, нашлось 3 мотива:
1) KWSKYCVMWGGTTCGAATCCKTCABSVCSCACCACTTTWYT (старт примерно на координате -70);
2) GAAAGTGCATAAATCAGCGCAAYACC (старт примерно на координате -30);
3) TAGRGCAGTTGGCTTTTAACC (мотив с достаточно низкими p-value обнаружения, но в малом количестве последовательностей и с большим разбросом координат старта).
Потом на файле meme.txt и на файлах негативного контроля и материала тестирования локально была запущена программа FIMO, чтобы попробовать обнаружить в последнем мотивы промоторов:
fimo meme.txt try.fa
fimo meme.txt neg.fa
Результат работы FIMO для материала тестирования.
А это - для негативного контроля.
Для негативного контроля нашлось два сиквенса, схожих с мотивом с p-value 4,75e-05 и 8,74e-05 соответственно.
Для материала тестирования нашлось 7 сиквенсов, схожих с мотивами. Для мотива 1: 2 сиквенса, для мотива 2: 3 сиквенса и для мотива 3: 2 сиквенса. Значение p-value имеет порядки -5 и -6. Один из найденных мотивов был обнаружен на минус-цепи.
Результат так себе. Мне кажется, основная проблема - в составлении материалов для работы программы. Скорее всего, не все промоторы белок-кодирующих генов были определены правильно. Сыграла роль погрешность сервера Operon mapper. Ну и ещё учтём погрешность, видную на отрицательном контроле. Однако, кажется мне, всё равно можно утверждать, что в материале тестирования были найдены (скорее был найден) промоторы.