Практикум 7

Для выполнения этого практикума использовались программы на языке python, доступные для скачивания в виде jupyter notebook:

Ссылка на скачивание файла в формате .ipynb

1. Подготовка данных

В данном практикуме я работал с геномом зеленой серной бактерии Chlorobium limicola штамма DSM 245. Его AC в базе данных RefSeq - GCF_000020465.1, он является репрезентативным для данного организма и имеет уровень сборки "Complete Genome".

Сначала с помошью онлайн-сервиса "Operon-mapper" в выбранном геноме были предсказаны гены и опероны. Для оперонов, найденных на "+" цепи, в качестве промоторов были взяты предшествующие им участки протяженностью в 150 нуклеотидов. В случае находок на "-" цепи брались последовательности той же длины, комплементарные участкам генома, следующим за оперонами.

Отбор материала для обучения проводился по наличию в описании входящих в опероны генов ряда ключевых слов ("Ribosomal", "ATP synthase", "DNA gyrase" и т. д.), ассоциированных с белками домашнего хозяйства. В результате, в тренировочную выборку вошли 50 последовательностей. Матерьял для тестирования состоял из всех полученных промоторов (1406). Для получения негативного контроля их последовательности были перемешаны с сохранением состава (для этого была использована программа shuffleseq пакета Emboss).

2. Запуск MEME

Поиск мотивов проводился с помощью онлайн-сервиса "MEME suite".

Программа MEME была запущена для последовательностей тренировочной выборки со следующими параметрами:

Select the site distribution
zoops
Select the number of motifs
3
What should be used as the background model?
0-order model of sequences
How wide can motifs be?
Minimum width: 8 Minimum width: 50
How many sites must each motif have?
Minimum sites: 25 Maximum sites: 50
Can motif sites be on both strands? (DNA/RNA only)
✓ search given strand only

Выдача программы в текстовом формате доступна по ссылке. Из трех найденных мотивов наименьшее значение E-value, равное 1.3e-003, имел мотив "KYTTBCVGAARGVT" (Рис. 1), найденный в 32 из 50 последовательностей. Длина найденного мотива составляет 14 нуклеотидов, его паттерн ("regular expression" в выдаче программы) - [TGC][CT]TT[GCT]C[GAC]G[AC]A[AG][GC][GAC]T.

Рис. 1. Logo-диаграмма мотива, найденного программой MEME.

Важно отметить, что при повышении порога на число встреч до 50 лучший из найденных мотивов со значением E-value 3.1e-002 имел консенсусную последовательность "TTCCGGMAD", которая почти полностью соответствует участку первого (более длинного) мотива с 3-го по 11-ый остаток. При этом в 19 из 50 промоторов два мотива действительно пересекались. Из этого можно сделать вывод, что в менее "строгой", близкой к консенсусу форме описываемая последовательность может встречаться почти во всех промоторах. Результат запуска MEME с повышенным порогом на число встреч доступен по данной ссылке.

2. Запуск FIMO

Выдача программы МЕМЕ была передана программе FIMO вместе с файлом, содержащим 1406 последовательностей тестовой выборки.

При пороге по E-value 0.01 выдача содержала 2030 находок в 1084 последовательностях, что не является приемлимым результатом, так как доля ложных положительных в таком случае составляет целых 47% (мы принимаем, что в каждом из промоторов сигнал должен встретиться не более 1 раза). В связи с этим порог был понижен до 0.001. При данном его значении программа нашла 316 подходящих участков в 285 промоторах. Текстовая выдача доступна по ссылке.

После этого при том же значении порога программа была запущена для последовательностей негативного контроля. В них находок было заметно меньше: всего 193 в 179 промоторах. Результат этого запуска FIMO доступен по данной ссылке.

Оценка статистической значимости полученного различия была проведена с помощью Z-теста для разности долей содержащих находки помоторов. При этом значение P-value составило 3.15×10^-8, что говорит об очень низкой вероятности получения таких результатов для двух наборов случайных последовательностей.