Мотивы и формы их представления
Описание мотива в белках паттерном
В этом практикуме я решил поискать мотив енолазы (ENO) - фермента, участвующего в предпоследнем этапе гликолиза. Енолаза катализирует переход 2-фосфо-D-глицериновой кислоты в фосфоенолпируват. При этом от 2-фосфо-D-глицерата отщепляется одна молекула воды.
Мной были выбраны белки следующих бактерий (в дальнейшем будут использоваться буквенные сокращения):
Файл с мнемониками: тык
Всего в файле bacteria-sw.fasta было найдено 773 белка с такой мнемоникой (из них 12 - это изоформа ENO1, 12 - изоформа ENO2, 1 - изоформа ENO3). Искали с помощью команды:
Далее из базы Swiss-Prot были получены последовательности белков с помощью команды:
Затем скачанные последовательности выровнены c помощью Muscle на Kodomo:
Файл с выравниванием: тык
В качестве консервативного блока был выбран участок белкового выравнивания 147-158 (12 аминокислот)
или 146-157 аминокислотные остатки в белке ECOLI (рис.1).
По данному участку составили следующий паттерн: [LM]-P-[VT]-P-[ML]-[ML]-N-[IV]-[IVL]-N-G-G
Провели поиск программой fuzzpro по этому паттерну среди всех белков бактерий из Swiss-Prot:
В результате получили 598 белковых находок, причём все из них енолазы (все находки положительные); 175 ложноотрицательных результатов (ненайденные белки с данной мнемоникой).
Улучшенный паттерн: [LIVM]-P-[VIT]-P-[LIVM]-[LIVM]-N-[IV]-[LIV]-N-G-G-x-H - получили 613 находок, все из них енолазы; 150 ложноотрицательных результатов (ненайденные белки с данной мнемоникой). Дальнейшие попытки улучшения паттерна не привели к улучшению результата.
Поиск мотивов в белках программой MEME и поиск этих мотивов в банке
Поищем мотивы в белках, с помощью программы MEME - выполнили следующую команду:
-protein - входные последовательности белковые
-mod oops - один сайт мотива в каждой последовательности
-nmotifs 3 - ищем 3 мотива в одной последовательности
-minw 8 -maxw 15 - минимальная и максимальная длина мотива
Получили файл в формате html: тык. Meme нашёл три мотива (рис.2). Найденные мотивы были направлены в программу Mast для поиска в базе всех белков бактерий:
Получили файл в формате html: тык. На странице с выдачей MAST указано, что 783 последовательнонсти имеют E-value меньше 10. А также, что показанные совпадения мотивов имеют p-value для позиции меньше 0,0001. На блоковой диаграмме (рис.3) видим, что голубой мотив (RSDRVAKYNQLLRIE) может встретиться дважды. Вариативный повтор следует до основного. Красный мотив (PVPMMNIINGGEHAD), который мы нашли глазами в предыдущем задании, встречается единожды в енолазах. Зелёный мотив (YPIISIEDGLDESDW) в редких случаях может встретиться дважды, как до, так и после основного мотива. Последняя нужная находка (енолаза) имеет e-value, равный 1.3e-5. Далее видим ещё 11 других белков с большим e-value (рис.4). Таким образом, из 773 енолаз из файла мы нашли 772 (я считаю, это очень хороший результат).
Поиск последовательности Шайна — Дальгарно в геноме своего прокариота
Последовательность Шайна—Дальгарно это рибосом-связывающий сайт у бактерий — короткий сигнал перед старт-кодоном. Обычно это AGGAGG ~в 10 п.о. от старт-кодона (AUG).
Для поиска был использован файл с полным геномом (genomic fna) и геномная таблица (feature table) бактерии Moraxella ovis, которые были скачаны в первом семестре. Всего в геноме этой бактерии аннотировано 2191 белок-кодирующих CDS.
С помощью программы fuzznuc ПШД в геноме Moraxella ovis поискали паттерн AGGAGG на (+) и (-) цепи следующими командами:
На плюс цепи 73 находки + 74 находки на минус цепи = 147 находок. То есть по этой оценке мы нашли примерно CDS с последовательностью Шайна—Дальгарно среди всех CDS (2191 штук).
С помощью программы compseq посчитали частоты нуклеотидов:
Посмотрим на наблюдаемые частоты нуклеодидов в геноме: P(A) = 0.2733214; P(C) = 0.2250328; P(T) = 0.2740906; P(G) = 0.2275552. Согласно этим частотам, вероятность получить последовательность AGGAGG, если это случайные независимо распределённые буквы: P(AGGAGG) = P(A)^2 * P(G)^4 = (0.2733214)^2 * (0.2275552)^4 = 2,003 * 10^-4. А количество находок в геноме тогда: P(AGGAGG) * длина генома = 2,003 * 10^-4 * 2306095 = 462. Однако это в 3,14 раз больше, чем реальное число находок. При больших n и маленьких p биномиальное распределение апроксимируется Пуассоновским. При λ = 147 и наблюдаемом числе сайтов k = 462 z критерий составляет: z ≈ (462 - 147) / 21,5 ≈ 14,65. Поскольку z >> 1.96 ( при стандартном пороге alpha = 0.05), формально это большое отклонение и это не случайные буквы в геноме. Мы должны отвергнуть нулевую гипотезу о том, что наблюдаемое число сайтов последовательности Шайна-Дальгарно соответствует случайному ожиданию. Наблюдаемое число сайтов значимо меньше того, которое стоило бы ожидать при случайном распределении нуклеотидов, что говорит о том, что это сигнал, а не случайный набор букв.
Из 15 случайно выбранных сайтов, содержащих последовательность AGGAGG, 4 (26,67%) расположены на расстоянии 5–15 нуклеотидов перед старт-кодоном какого-либо CDS. Остальные 10 находок находятся в позициях, не соответствующих функциональной ПШД (внутри генов, на противоположной цепи или слишком далеко/близко от старт-кодона). Получается, что хотя находок гораздо меньше чем белок-кодирующих генов в геноме, но примерно четверть находок, скорее всего, является истиными ПШД. Для других генов ПШД может быть представлена неидеальными вариантами (например, AGGAG, GGAGG, GAGG), которые также способны связывать рибосому, но с меньшей эффективностью, или используются альтернативные механизмы инициации трансляции.