Практикум 6

Задание 1

CpG (5'—C—фосфат—G—3') островки- участки в ДНК с повышенным содержанем СG 2-мера.У млекопитающих метилировано около 70% CpG островков.[1]

Служат сигналом для метилтрансфераз (ферменты 3-x классов, использующие SAM для метилирования цитозина, но метилироваться может и аденин, да и субстраты могут быть другими), в зависимости от обстоятельств метилтрансфераза может метилировать разные CpG островки (при de novo метилировании ранее нетронутый CpG участок метилируется обычно с помощью DNMT 3a или 3b -> привлечение гистоновых деацетилаз, комплексов хроматинового ремодулирования и др.), т.е. сигнал низкоэффективен.

Рис.1. Метилирование цитозина[2]
Рис.2. Кратко о метилировании)[3]

Источники

  1. Jabbari K, Bernardi G (May 2004). "Cytosine methylation and CpG, TpG (CpA) and TpA frequencies". Gene. 333: 143–9.
  2. https://biomolecula.ru/articles/epigenetika-v-zakone-o-chem-metilirovanie-dnk-rasskazhet-kriminalistam
  3. Bégin P, Nadeau KC. Epigenetic regulation of asthma and allergic disease. Allergy Asthma Clin Immunol. 2014 May 28;10(1):27. doi: 10.1186/1710-1492-10-27. PMID: 24932182; PMCID: PMC4057652

Задание 2

Для выполнения задания 2, решил взять последовательность Kozak

Рис.3. PWM матрица
Рис.4. Ящик с усами весов последовательностей из разных выборок
Рис.5.Гистограмма весов последовательностей из разных выборок

Установив порог веса полседовательности в 4, я получил следующий результат:

X Train Test Neg_control
+ 30 45 11
- 10 15 49

Выводы можно сделать довольно досадные: чего-то мне не повезло, выпала не самая крутая train-выборка, но все же accuracy предсказания не столь мал: 0,775). Полученная последовательность из наиболее часто встречаемых оснований: GGGCACCATGGCG

Задание 3

Рис.6. Матрица информационного содержания
Рис.7. Не самое красивое LOGO консенсуса, вероятно, при большей выборке получилось бы лучше.

Задание 4

Выбрал штам XJ6.2 бактерии Escherichia coli. Скачал последовательность её хромосомы с помощью базы данных NCBI Nucleotide. Полученная частота GAATTC в геноме = 0.0001392, ожидаемая же = 0.000236269. Двусторонний z-test для пропорций показал, что наблюдать полученную частоту, при условии истинности ожидаемой частоты, буквально невозможно: p-value = 4.58e-42

Для выполнения практикума был написан этот notebook