Сигналы и мотивы - 2¶

Задание 1.¶

Осовоной задачей данной работы является поиск последовательности Шайна-Дальгарно в геноме бактерии Yersinia pestis, вызывающей бубонную чуму. Последовательность Шайна-Дальгарно находится на расстоянии 6-8 оснований перед старт-кодоном генов белков и представляет из себя сайт связывания рибосомой молекулы мРНК. В самой рибосоме за узнавание этой последовательности ответсвенна комплементарная ей последовательность на 3'-конце 16S рРНК. Узнавание рибосомой последовательности Шайна-Дальгарно помогает ей обнаружить старт-кодон и начать трансляцию, однако было в отсутсвие последовательности Шайна-Дальгарно все ещё может происходить трансляция, поэтому далеко не все гены имеют в своем ее upstream-регионе.

Для поиска последовательности Шайна-Дальгарно был создан скрипт, принимающий на вход файл с геномом - genome.fasta, файл с таблицей генов - features.tsv и создающий файл meme_in.fasta, содержащий выборку из отфильтрованных upstream последовательностей. Скрипт также требует другого скрипта - features2CDS.py (автор - Алексеевский А.В.).

В процессе отбора последовательностей возникли некоторые сложности с тем, что из полученных генов было не достаточно отобрать те, что длиной больше 300 нуклеотидов и не являются гипотетическими. Так, например, в на Рис.1 видно, что в наборе данных присутсвует некоторый артефакт в районе -37 нуклеотидов (выделен синей стрелкой, предположительно, это стоп-кодон от другого близко лежащего гена, который появился здесь из-за ошибок аннотации). Также можно заметить небольшое увеличение информационного содержания в области -10 нуклеотидов, которое предположительно вызвано наличием в в ней последовательности Шайна-Дальгарно.

Рис.1. Информационное содержание позиций в upstream-регионе отобранных генов *Yersinia pestis* .

Поэтому было решено дополнительно убрать гены, в названиях которых есть слово "family" (т.к. программа для аннотирования для многих предсказанных белков, видимо, может определить его наиболее вероятное семейство и написать, что найденный белок ему принадлежит), а также оставить только те гены, в начале которых стоят котодоны ATG, CTG, GTG и TTG. В результате удалось избавиться от артефакта в районе -37 нуклеотидов (Рис.2.).

Рис.2. Информационное содержание позиций в upstream-регионе отобранных генов *Yersinia pestis* после ограничения последовательности старт-кодона . Красной стрелкой обозначено предположительное место асположение последовательностей Шайна-Дальгарно.

Программа MEME запускалась со следующими параметрами: дина мотива - от 5 до 7, поиск 0 или 1 мотива на последовательность, поиск только на одной цепи. На вход были поданы upstream-регионы длиной 25 нуклеотидов (Рис.3.).

**Рис.3. Информационное содержание позиций в последовательностях *Yersinia pestis*, поданых на вход программе MEME.**

В результате программе удалось найти мотив длиной 7 с информационным содержанием равным 9.5, 4 позиции которого совпадают с консенсусом последовательности Шайна-Далгарно - AGGAGG (Рис.4.a, Рис.5.), однако этот мотив удалось найти только в 22,2% выборки.

**Рис.4. Результаты работы программы MEME.** а - расположение найденного мотива на входных последовательностях, b - найденный мотив, с - информационное содержание позиций входных последовательностей.

**Рис.5. Статистики найденного мотива.**

На Рис.4 видно, что найденные мотивы располагаются от старт кодона примерно на одинаковом расстоянии, соответсвующем расстоянию, на котором от старт-кодона располагается область с повышенным информационным содержанием. Из-за того, что последовательности Шайна-Дальгарно могут располагаться на разном расстоянии от старт-кодона, на графике информационного содержания на месте их перекрывания возникает "размазанный" холмик, вместо четкого сигнала.

Для полученного мотива была создана следующая позиционно-весовая матрица.

Сигналы и мотивы - 2¶

Задание 1.¶

Задание 2¶