Практикум 9


Подготовка данных

Для анализа я выбрал бактерию Escherichia coli, так как она является модельным объектом, базовой бактерией. Геном был взят из сервиса NCBI Genome, ссылка на данную сборку генома: GCF_000008865.2. Ссылка на геном в формате fasta: ссылка.

В сервисе Operon-mapper был получен список оперонов для E. coli. ссылка на полученный список.

Для составления материала обучения я воспользовался скриптом Георгия. Скрипт принимает на вход последовательность генома в формате fasta и таблицу operon mapper, выдавая три файла с обучающей, тестовой и негативной выборкой.

Материал обучения в виде последовательностей, которые являются генами домашнего хозяйства - ссылка.

Тестовая выборка из оперонов - ссылка.

Материал негативного контроля из случайно взятых последовательностей - ссылка.


MEME

Полученная выборка обучения была подана на вход локальному meme на сервере kodomo.

meme learn.fa -dna -nmotifs 3 -minw 6 -text > meme.txt

Полученный вывод в текстовом формате: ссылка. Среди трех полученных мотивов выбран мотив с минимальным значением E-value.

Полученный мотив: CWGGCGGCKTT, e-value = 1.8e+001

Кроме него были найдены мотивы с данными E-value:

GCCAKAAAAABGGCG, e-value = 5.6e+002

GGACNTCGCGTBDTBCGHVCAGHRMCAMC, e-value = 1.1e+002

...
Рис.1 logo для выбранного мотива

FIMO

Решено было проверить выбранный первый мотив на тестовой выборке и негативном контроле

fimo --norc -motif CWGGCGGCKTT -t meme.txt promotors.fasta
fimo --norc -motif CWGGCGGCKTT -t meme.txt negative.fasta

Полученные результаты для тестовой выборки и негативной выборки

На тестовой выборке обнаружилось 750 последовательностей из 5485. На негативной выборке 60 из 318.

Я считаю данный результат неудовлетворительным, так как процент находок для негативной выборки оказался велик. Это я связываю с тем, что последовательности были взяты из случайных мест генома и могли включать в себя и промоторы тоже.