Левин И., 4-й семестр, практикум 6

Поиск мотивов, MEME

Задание 6.1: PWM с псевдоотчетами

Здесь вы можете найти мою PWM последовательностей Козак человека.

Задание 6.2: В геноме одного из Coronaviridae найти мотив сайта разрывной транскрипции sgRNA

Для выполнения этого задания я выбрал геном SARS-CoV-2.

Исходя из features приведённой выше записи, с помощью этого кода была составлена таблица с координатами upstream-областей генома, а также собран fasta-файл с последовательностями всех upstream'ов.

Таблица 1. Координаты upstream-областей генома коронавируса
Upstream-область перед каким геном? Координата начала Координата конца
ORF1ab 1 264
S 21461 21561
ORF3a 25291 25391
E 26143 26243
M 26421 26521
ORF6 27100 27200
ORF7a 27292 27392
ORF7b 27654 27754
ORF8 27792 27892
N 28172 28272
ORF10 29456 29556

Конечной координатой upstream'ов поздних генов бралась координата нуклеотида, предшествующего стартовому нуклетиду гена, а начальной - координата нуклеотида, находящегося на 100 нуклеотидов левее нуклеотида с конечной координатой; для гена полипротеина ORF1ab upstream занимал всю область от первого нуклеотида до нуклеотида, предшествовашего стартовому нуклеотиду самого гена.


Про анализ MEME:

Запускал я программу с такими параметрами:

meme_settings.png
Рис. 1. Параметры запуска программы поиска мотивов MEME

Как вы можете заметить, я подавал свои частоты нуклеотидов в файле, так как посчитал это более объективным, чем подавать базовые частоты по умолчанию. То, как я его сделал, заслуживает отдельного внимания.

Воспользовался я программой fasta-get-markov (которая, к счастью, установлена на kodomo ), чтобы из генома коронавируса, чьи upstream'ы я взял, создать Марковскую background model нулевого порядка (честно говоря, как на точность поиска повлияет модель большего порядка, я не знаю), что является, по сути, определением частот нуклеотидов для поиска. Воспользовался я такой командой:

$ fasta-get-markov -norc < sequence.fasta > BM_SARS-CoV-2.markov

Про параметры запуска MEME дополню, что я решил ограничить длину мотива отрезком от 6 нуклеотидов до 10, руководствуясь тем, что CS мотива разрывной транскрипции моего коронавируса (по литературе) составляет 6 нуклеотидов, и всё, что найдётся меньше этой длины, меня особо устраивать не будет, а верхняя граница задана для того, чтобы фильтровать слишком длинные мотивы.

Здесь вы сможете найти полную текстовую выдачу MEME.

Только один найденный мотив достоин нашего внимания, так как остальные (в моем случае остальные 2) получили e-value больше 1. Представляю вам его LOGO:

motif_logo.png
Рис. 2. LOGO лучшего найденного в upstream'ах генов SARS-CoV-2 мотива

Нашлись сигналы из этого мотива только перед 9-ю генами из предложенных 11 (перед 82% генов), включая upstream полипротеина, что говорит нам о том, что мы нашли 1 TRS-L и 8 TRS-B (хотя в идеале было бы круто найти все 10, но и так сойдет). Сразу отметим, что четко видна Core Sequence - ACGAAC, которая совпадает с литературной.

Ниже прикрепляю PWM найденных сигналов, посчитана она также с помощью кода, который я прикреплял в самом начале отчета.

Таблица 2. PWM c псевдоотчетами найденных сигналов. E - ожидаемая частота нуклеотида, взялась из GC% генома
E 1 2 3 4 5 6 7 8 9
A 0.31 -7.93 1.17 1.17 1.05 -7.93 -1.03 1.05 1.17 -7.93
T 0.31 1.17 -7.93 -7.93 -1.03 -7.93 -7.93 -7.93 -7.93 -7.93
C 0.19 -7.44 -7.44 -7.44 -7.44 1.54 -7.44 -0.54 -7.44 1.54
G 0.19 -7.44 -7.44 -7.44 -7.44 -0.54 1.54 -7.44 -7.44 -0.54
sum 1.00 -21.65 -21.65 -21.65 -14.86 -14.86 -14.86 -14.86 -21.65 -14.86

Результат мне кажется довольно хорошим, так как сигналы нашлись перед большинством генов, e-value мотива шикарен (1e-8), и литературная CS в нашем мотиве также нашлась.