Сигналы и мотивы

Задание 1

YAP и TAZ - белки, известные как коактиваторы транскрипции. А именно, они задействованы в процессах пролиферации и дифференциации клеток, особенно при травмах, вызывая регенерацию тканей. Например, при ранах YAP/TAZ способствует увеличению концентраций фактора роста β1 (TGF-β1). В их отсутвие этого не происходит и период заживления раны затягивается. Для регуляции экспрессии в подобных процессах эти белки образуют комплекс с ДНК-связывающими белками семейства TEAD, которые содержат высоко консервативный домен для узнавания последовательности ДНК 5′-g/aCATTCCa/t-3′ (консенсусная форма записи).

Источники: Lee MJ, Byun MR, Furutani-Seiki M, Hong JH, Jung HS. YAP and TAZ regulate skin wound healing. J Invest Dermatol. 2014 Feb;134(2):518-525. doi: 10.1038/jid.2013.339. Epub 2013 Aug 9. PMID: 24108406.
Arianna Pocaterra, Patrizia Romani, Sirio Dupont; YAP/TAZ functions and their regulation at a glance. J Cell Sci 15 January 2020; 133 (2): jcs230425. doi: https://doi.org/10.1242/jcs.230425

Задание 2

Проанализируем сигнал инициации трансляции у эукариот — последовательность Козак. Для выполнения работы были использованы скрипты Сергея Бушуева и Бориса Гукова, автор выражает им свою благодарность (сам скрипт, файл с разметкой, материалы отрицательного контроля: разметка, геном вируса). Было набрано 100 последовательностей из генома человека вокруг ATG (6 нуклеотидов до него и 3 после). Эти последовательности были разбиты на материал тестирования (60 последовательностей) и материал обучения (40 последовательностей). На материале обучения была построена PWM (Табл. 1). В позициях 7-9 ожидаемо можно увидеть ATG (большие положительные значения в для этих букв в позициях и отрицательные для других). До этого стоит отметить, что предпочтение отдаётся G или С, это мы сможем проследить и в LOGO. В качестве негативного контроля были выбраны последовательности вокруг ATG из генома вируса Sars-Cov2. После чего была построена гистограмма весов всех последовательностей (Рис. 1). Будем считать равный 5 вес весом, когда последовательность считается правильной, тогда получим следующие результаты (Табл. 2).

Заметим, что параметры распределений весов тренировочной и тестовой выборок практически совпадают, а вот распределение весов отрицательного контроля смещено влево. Однако тренировочных последовательностей с весом около 4 резко меньше, а отрицательного контроля с таким весом приличное количество. Именно поэтому порог 5 кажется наиболее удачным в данном случае.

Табл. 1 PWM, построенная по материалу обучения
Рис. 1 Гистограмма весов последовательностей
Табл. 2 Результаты проверки

Train Test Negative
 26  29  2
 -  14  31  58

Задание 3

С использованием упомянутого выше скрипта также была построена матрица информационного содержание (Табл. 3). Суммарный IC равен 7.984, что говорит о достаточно высокой силе сигнала. С помощью веб-сервиса было построено LOGO (Рис. 2). Хотя на фоне ATG, сигнал слабоват, хорошо заметно, что он GC-богат.

Табл. 3 Матрица информационного содержания
Рис. 2 LOGO

Задание 4

Частота сайтов рестрикции GAATTC в штамме XJ6.2 E.coli составляет 0.0001392. Если считать, что шестибуквенный сайт встречается 1 на 4^6 нуклеотидов, то ожидаемая частота 0.000244. Полученное значение значимо ниже ожидаемого (согласно z тесту пропорций p < 0,00001).