Сигналы и мотивы

Описание мотива в белках паттерном

В данном задании мы искали паттерн среди аминокислотных бактериальных последовательностей бета-субъединицы РНК-полимеразы (RPOB_*). Этот белок отвечает за катализ и неспецифическое взаимодействие с ДНК.
Из базы Swiss-prot были скачаны аминокислотные последовательности этой субъединицы 10 видов бактерий со следующими ID:
RPOB_*, где вместо * - (BACSU, AERS4, HAEIG, CLOBL, THEPX, RICPR, ECOLI, DESHD, MYCTU, LISMH)
Далее последовательности были выравнены программой muscle: выравнивание
Для составления паттерна были выбраны позиции 624 - 638 в полученном выравнивание.
Составленный паттерн:

 D-D-I-D-H-[LF]-G-N-R-R-[LIV]-R-[ST]-V-G

По составленному паттерну мы проводили поиск белков того же семейства по файлу bacteria-sw.fasta, содержащему все записи белковых бактериальных последовательностей из Swiss-prot. Всего записей с мнемоникой RPOB_* в нем оказалось 735. Для их нахождения использовалась программа fuzzpro, с поданным на вход файлом bacteria-sw.fasta и нашим паттерном. На выход был получен файл со всеми находками паттерна в последовательностях.
Всего таких последовательностей нашлось 455 из которых 447 с мнемоникой RPOB, что сильно меньше чем последовательностей бета-субъединицы в изначальном файле. Еще 8 последовательностей было найдено со схожей мнемоникой: RPOBC, RPOB1, RPOB2, RPOB3 и RPOB4. В целом это те же бета-субъединицы, поэтому неправильных находок у нас нет. Однако расстраивает, что не нашлось еще 288 последовательностей. Попробуем усовершенствовать наш паттерн, заменив все неоднозначные варианты на x:
 D-D-I-D-H-x-G-N-R-R-x-R-x-V-G
Получили 612 находок, из которых 604 с мнемоникой RPOB и еще 8 со схожей мнемоникой. За счет ослабления паттерна нам получилось найти сильно больше верных последовательностей.
Далее мы решили укоротить наш паттерн в 1.5 раза, если укорачивать равномерно с обоих концов или только с правого конца, то прирост в записях наблюдается небольшой, в пределах 10 штук, однако укорочение паттерна слева на 5 позиций позволило обнаружить 669 находок, что уже ощутимо больше чем 612. При этом хоть все находки оказывались правильными (с мнемоникой RPOB или схожей). Дальнейшее укорочение паттерна, хоть и позволяла получить больше записей, но уже обнаруживало много неверных находок (с другой мнемоникой).

Работа с программами MEME и MAST

Следующим этапом поиска бета-субъединиц РНК-полимераз по мотивам стало применение программ MEME и MAST. Первая из них позволяет искать мотивы в заданных последовательностях, мы искали три мотива, с длиной 8-15 аминокислотных остатков, по одному представителю мотива на последовательность.
Результат работы: MEME_result
Полученные мотивы мы подавали на вход программе MAST, которая искала белки по файлу bacteria-sw.fasta с такими же мотивами
Результат работы: MAST_result

Все три мотива, найденные MEME, были с очень большим e-value, длиной 15 аминокислотных остатков и были найдены во всех подоваемых на вход последовательностях 1 раз.
Структуру мотива можно увидеть в отчете работы программы MEME. В целом почти все позиции мотивов оказались одинаковыми среди белковых последовательностей, различие в аминокислотных остатках наблюдалось максимум в трех позициях.

Программа MAST нашла 752 находки содержащие все три мотива, большинство из них (733 находки) имели мнемонику RPOB, так что нам удалось найти практически все белки с такой мнемоникой из файла bacteria-sw.fasta, что является прекрасным результатом (сильно больше находок, чем при поиске по одному паттерну). По мимо этого было найдено 15 последовательностей со схожей мнемоникой (RPOB* ,где *: 1/2/3/4/C) и еще 4 находки с мнемоникой NQOR. Это белки - NAD(P)H dehydrogenase (quinone), не принадлежащих семейству RPOB. Однако получая очень большое количество правильных находок, можно пренебречь небольшим количеством неправильных находок и сказать, что поиск последовательностей того же семейства с помощью программ MEME и MAST очень эффективен.

Поиск последовательности Шайна — Дальгарно

В данном задании мы взяли геном бактерии Nitrosomonas eutropha C91, с которой работали в 1 семестре. С помощью программы fuzznuc по геному бактерии проводился поиск последовательности Шайна-Дальгарно - паттерн (AGGAGG) лежащий примерно за 10 нуклеотидов до старт-кодона мРНК, узнаваемый малой субъедницей рибосомы. При поиске по прямой цепи генома было найдено 396 находок (из которых 377 - в хромосоме, 14 - в 1 плазмиде, 5 - во 2 плазмиде), а по комплементарной ей цепи еще 415.
Для того чтобы оценить достоверность наших находок, мы приняли за нулевую гипотезу вероятность случайного обнаружения ПШД в геноме. Для проверки гипотезы мы посчитали вероятность случайного обнаружения этой последовательности в геноме по , а далее применили биномиальный тест (binom.test() в R), на вход которому подали количество наших находок, длину генома - 5 нуклеотидов (кол-во последовательностей из 6 нуклеотидов) и вероятность встретить ПШД, полученный p-value был меньше чем 2.2e-16. Что отвергает нашу гипотезу о том, что наши находки случайны.
Далее, скачав геномную таблицу, мы решили проверить все ли наши найденные последовательности являются ШД. Известно, что ПШД лежит примерно за 10 нуклеотидов до старт-кодона. Мы проверили для каждой последовательности условие, что растояние между ПШД и старт-кодоном лежит в диапозоне 5-15 нуклеотидов. Оказалось, что только 40% найденных ПШД в хромосоме являются истинными, в плазмидах же вообще не удалось найти верных ПШД, что удивило нас.
Используемые коды: Colab