Учебный сайт студента ФББ МГУ

Киселёв Матвей Олегович

Отчёт о практикуме 9

Поиск сигнала посадки сигма-субъединицы РНК-полимеразы в промоторах генов Shewanella baltica

Из базы данных NCBI Genome была скачана последовательность хромосомы бактерии Shewanella baltica. AC сборки GCF_000178875.2.

С помощью сервера Operon Mapper был составлен список оперонов, находящихся на данной хромосоме.

Для составления материалов обучения и тестирования написан скрипт на Python3. Он принимает на вход FASTA-файл с геномом бактерии и таблицу-выходной файл Operon Mapper. На выходе пользователь получает 3 FASTA-файла:

learn.fa - 30 последовательностей промоторов генов тРНК на плюс-цепи генома бактерии. Это материал обучения. Гены тРНК я выбрал как гены домашнего хозяйства.

try.fa - 200 оперонов белок-кодирующих генов плюс-цепи того же генома. Это материал тестирования.

neg.fa - негативный контроль. 30 случайно сгенерированных последовательностей. Это негативный контроль.

Все последовательности в этих файлах длиной 100 нуклеотидов.

На сервере Kodomo для материала обучения локально была запущена программа MEME для поиска мотивов:

meme learn.fa -dna -nmotifs 3 -minw 6 -text > meme.txt

Выходные данные - в файле meme.txt. Это совокупность таблиц, содержащих информацию о последовательностях входного файла и о мотивах, которые нашлись в них. Как и было задано программе, нашлось 3 мотива:

1) KWSKYCVMWGGTTCGAATCCKTCABSVCSCACCACTTTWYT (старт примерно на координате -70);

2) GAAAGTGCATAAATCAGCGCAAYACC (старт примерно на координате -30);

3) TAGRGCAGTTGGCTTTTAACC (мотив с достаточно низкими p-value обнаружения, но в малом количестве последовательностей и с большим разбросом координат старта).

Потом на файле meme.txt и на файлах негативного контроля и материала тестирования локально была запущена программа FIMO, чтобы попробовать обнаружить в последнем мотивы промоторов:

fimo meme.txt try.fa
fimo meme.txt neg.fa

Результат работы FIMO для материала тестирования.

А это - для негативного контроля.

Для негативного контроля нашлось два сиквенса, схожих с мотивом с p-value 4,75e-05 и 8,74e-05 соответственно.

Для материала тестирования нашлось 7 сиквенсов, схожих с мотивами. Для мотива 1: 2 сиквенса, для мотива 2: 3 сиквенса и для мотива 3: 2 сиквенса. Значение p-value имеет порядки -5 и -6. Один из найденных мотивов был обнаружен на минус-цепи.

Результат так себе. Мне кажется, основная проблема - в составлении материалов для работы программы. Скорее всего, не все промоторы белок-кодирующих генов были определены правильно. Сыграла роль погрешность сервера Operon mapper. Ну и ещё учтём погрешность, видную на отрицательном контроле. Однако, кажется мне, всё равно можно утверждать, что в материале тестирования были найдены (скорее был найден) промоторы.