Осовоной задачей данной работы является поиск последовательности Шайна-Дальгарно в геноме бактерии Yersinia pestis, вызывающей бубонную чуму. Последовательность Шайна-Дальгарно находится на расстоянии 6-8 оснований перед старт-кодоном генов белков и представляет из себя сайт связывания рибосомой молекулы мРНК. В самой рибосоме за узнавание этой последовательности ответсвенна комплементарная ей последовательность на 3'-конце 16S рРНК. Узнавание рибосомой последовательности Шайна-Дальгарно помогает ей обнаружить старт-кодон и начать трансляцию, однако было в отсутсвие последовательности Шайна-Дальгарно все ещё может происходить трансляция, поэтому далеко не все гены имеют в своем ее upstream-регионе.
Для поиска последовательности Шайна-Дальгарно был создан скрипт, принимающий на вход файл с геномом - genome.fasta, файл с таблицей генов - features.tsv и создающий файл meme_in.fasta, содержащий выборку из отфильтрованных upstream последовательностей. Скрипт также требует другого скрипта - features2CDS.py (автор - Алексеевский А.В.).
В процессе отбора последовательностей возникли некоторые сложности с тем, что из полученных генов было не достаточно отобрать те, что длиной больше 300 нуклеотидов и не являются гипотетическими. Так, например, в на Рис.1 видно, что в наборе данных присутсвует некоторый артефакт в районе -37 нуклеотидов (выделен синей стрелкой, предположительно, это стоп-кодон от другого близко лежащего гена, который появился здесь из-за ошибок аннотации). Также можно заметить небольшое увеличение информационного содержания в области -10 нуклеотидов, которое предположительно вызвано наличием в в ней последовательности Шайна-Дальгарно.
Поэтому было решено дополнительно убрать гены, в названиях которых есть слово "family" (т.к. программа для аннотирования для многих предсказанных белков, видимо, может определить его наиболее вероятное семейство и написать, что найденный белок ему принадлежит), а также оставить только те гены, в начале которых стоят котодоны ATG, CTG, GTG и TTG. В результате удалось избавиться от артефакта в районе -37 нуклеотидов (Рис.2.).
Программа MEME запускалась со следующими параметрами: дина мотива - от 5 до 7, поиск 0 или 1 мотива на последовательность, поиск только на одной цепи. На вход были поданы upstream-регионы длиной 25 нуклеотидов (Рис.3.).
В результате программе удалось найти мотив длиной 7 с информационным содержанием равным 9.5, 4 позиции которого совпадают с консенсусом последовательности Шайна-Далгарно - AGGAGG (Рис.4.a, Рис.5.), однако этот мотив удалось найти только в 22,2% выборки.
На Рис.4 видно, что найденные мотивы располагаются от старт кодона примерно на одинаковом расстоянии, соответсвующем расстоянию, на котором от старт-кодона располагается область с повышенным информационным содержанием. Из-за того, что последовательности Шайна-Дальгарно могут располагаться на разном расстоянии от старт-кодона, на графике информационного содержания на месте их перекрывания возникает "размазанный" холмик, вместо четкого сигнала.
Для полученного мотива была создана следующая позиционно-весовая матрица.
Для проверки матрицы с помощью FIMO, на вход программе подавался файл с геномом бактерии и позиционно весовая матрица, в результате было получено 229 находок. C помощью скрипта, упомянутого в начале практикума, было найдено число находок, попадающих в upstream-регион генов, равное 40. Таким образом, только 17,5% находок находятся в upstream-регионах генов, что говорит о низкой специфичности матрицы к последовательностям Шайна-Дальгарно.