В качестве объекта использовала бактерию Nonlabens dokdonensis DSW-6.
Для поиска последовательности Шайно-Дальгарно были выбраны гены с прямой цепи, для которых в графе product значение отлично от hypothetical protein. Составила таблицу генов по данным GeneBank, из нее в анализ взяла первые 100 белков. Из генома по координатам вырезала upstream-участки длиной 40 нуклеотидов + 3 первых нуклеотида для контроля (в случае нормального выделения последовательности должен содержать ATG). Файл был подан на вход программе MEME. Параметры: поиск по загруженной цепи, длина мотива от 3 до 10 нуклеотидов, остальное по умолчанию. Консенсус представлен ниже
Далее с помощью скрипта по выделенным последовательностям построила матрицу PWM (см. таблицу). Параметры: ε = 1, GC-content = 35,3%. Формула для ячейки PWM: ln(([N(b,j]+0.25]/(N+1))/p(b)).
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | |
A | -2.17 | -3.78 | 1.08 | -0.74 | -0.29 | -3.78 | -3.78 | -2.17 | 0.11 |
T | 0.56 | 1.11 | -2.17 | 0.56 | 0.19 | 1.08 | 1.11 | 1.01 | -3.78 |
G | 0.54 | -3.18 | -3.18 | -3.18 | -3.18 | -3.18 | -3.18 | -3.18 | 1.26 |
C | -0.61 | -3.18 | -3.18 | 0.43 | 0.71 | -1.57 | -3.18 | -0.98 | -3.18 |
Использовала ссылку на поиск при помощи FIMO из выдачи MEME. Пороговый p-value задала равным 0.001. В качестве базы данных использовала первые 200 последовательностей из таблицы (см. задание 1). Было найдено 87 последовательностей с мотивом KTATHTTTR.
Найденный мотив хоть и присутствует в upstream-области большой доли белок-кодирующих генов, взятых в анализ, не является последовательностью Шайна—Дальгарно (AGGAGGU [1] ).