Практикум 6
Задание 1
CpG (5'—C—фосфат—G—3') островки- участки в ДНК с повышенным содержанем СG 2-мера.У млекопитающих метилировано около 70% CpG островков.[1]
Служат сигналом для метилтрансфераз (ферменты 3-x классов, использующие SAM для метилирования цитозина, но метилироваться может и аденин, да и субстраты могут быть другими), в зависимости от обстоятельств метилтрансфераза может метилировать разные CpG островки (при de novo метилировании ранее нетронутый CpG участок метилируется обычно с помощью DNMT 3a или 3b -> привлечение гистоновых деацетилаз, комплексов хроматинового ремодулирования и др.), т.е. сигнал низкоэффективен.
Источники
- Jabbari K, Bernardi G (May 2004). "Cytosine methylation and CpG, TpG (CpA) and TpA frequencies". Gene. 333: 143–9.
- https://biomolecula.ru/articles/epigenetika-v-zakone-o-chem-metilirovanie-dnk-rasskazhet-kriminalistam
- Bégin P, Nadeau KC. Epigenetic regulation of asthma and allergic disease. Allergy Asthma Clin Immunol. 2014 May 28;10(1):27. doi: 10.1186/1710-1492-10-27. PMID: 24932182; PMCID: PMC4057652
Задание 2
Для выполнения задания 2, решил взять последовательность Kozak
Установив порог веса полседовательности в 4, я получил следующий результат:
X | Train | Test | Neg_control |
+ | 30 | 45 | 11 |
- | 10 | 15 | 49 |
Выводы можно сделать довольно досадные: чего-то мне не повезло, выпала не самая крутая train-выборка, но все же accuracy предсказания не столь мал: 0,775). Полученная последовательность из наиболее часто встречаемых оснований: GGGCACCATGGCG
Задание 3
Задание 4
Выбрал штам XJ6.2 бактерии Escherichia coli. Скачал последовательность её хромосомы с помощью базы данных NCBI Nucleotide. Полученная частота GAATTC в геноме = 0.0001392, ожидаемая же = 0.000236269. Двусторонний z-test для пропорций показал, что наблюдать полученную частоту, при условии истинности ожидаемой частоты, буквально невозможно: p-value = 4.58e-42
Для выполнения практикума был написан этот notebook