Задание B

Для выполнения была выбрана задача B - нахождение предвполагаемой последовательности Шайно-Дальгарно в промоторных участках бактериального генома. Мотив Шайно-Дальгарно служит для связывания рибомом на мРНК последовательности прокариот и располагается на расстоянии около 10 пар нуклеотидов от первого кодона ATG.

Для отбора участков генома была выбрана бактерия Bacillus mojavensis, с которой я уже работал в первом семестре первого курса.

Из базы данных NCBI были получены полный геном и feature table в .txt формате. Далее при помощи вашего скрипта на кодомо таблица была переведена в более удобный для обработки .tsv формат.

Для нахождения участков-оперонов исходная хромосома в .fasta формате была передана программе operon-mapper, на выходе получен файл list_of_operons_bac.tsv. При помощи небольшого скрипта и информации из списка оперонов были отобраны 60 фрагментов генома, предположительно содержащих участок с искомым сигналом

Анализ результатов МЕМЕ

Последовательности были загружены в МЕМЕ с задачей поиска до 3 различных мотивов. Мотив RAAAGGRGGRR длиной 11 пар нуклеотидов и имеющий Е-value 1.0e-010 выглядит наиболее праводоподбным, так как встречается почти во всех последовательностях и расположен в них относительно упорядочено - зачастую находясь между позициями -21 и -5 относительно первого кодона ATG, где и должен находится искомый мотив Шайно-Дальгарно исходя из литературы.

Текстовая выдача МЕМЕ

Карта расположения мотива RAAAGGRGGRR

Проверка результата при помощи FIMO

Найденный мотив был передан в программу FIMO с параметрами поиска по 200 предварительно отобранным идентичным (150 пар нуклеотидов перед первым ATG) фрагментам генома одного из самых распространенных лабороторных штаммов бактерий - Escherichia coli K12

В результате были найдены 10 значительных совпадений (E-value менее 0.0001) с лучшим значением E-value равным 1.51e-06:

Было решено провести отрицательный контроль, для этого тем же способом были отобраны 200 последовательностей оперонов из первой хромосомы человека (grch38) и загружены в FIMO для проверки найденного мотива с теми же параметрами.

Результаты противоречивые - было найдено 18 значительных совпадений с наименьшим E-value равным 3.73e-07:

В литературе последовательность Шайна — Дальгарно описывается как AGGAGG, что достаточно близко к нашему результату RAAAGGRGGRR. Также совпадают и расположения в опероне. Моё предположение в том, что в таких странных результатах проверки виновно не неверное нахождение мотива, а низкая точность FIMO, по крайней мере при заданных параметрах и объеме входных данных. В любом случае это очередное подтверждение главного правила работы с любой машиновыдачей - На скрипт надейся, а сам не плошай.