Левин И., 4-й семестр, практикум 6

Поиск мотивов, MEME

Задание 6.1: PWM с псевдоотчетами

Здесь вы можете найти мою PWM последовательностей Козак человека.

Задание 6.2: В геноме одного из Coronaviridae найти мотив сайта разрывной транскрипции sgRNA

Для выполнения этого задания я выбрал геном SARS-CoV-2.

Исходя из features приведённой выше записи, с помощью этого кода была составлена таблица с координатами upstream-областей генома, а также собран fasta-файл с последовательностями всех upstream'ов.

Таблица 1. Координаты upstream-областей генома коронавируса
Upstream-область перед каким геном?	Координата начала	Координата конца
ORF1ab	1	264
S	21461	21561
ORF3a	25291	25391
E	26143	26243
M	26421	26521
ORF6	27100	27200
ORF7a	27292	27392
ORF7b	27654	27754
ORF8	27792	27892
N	28172	28272
ORF10	29456	29556

Конечной координатой upstream'ов поздних генов бралась координата нуклеотида, предшествующего стартовому нуклетиду гена, а начальной - координата нуклеотида, находящегося на 100 нуклеотидов левее нуклеотида с конечной координатой; для гена полипротеина ORF1ab upstream занимал всю область от первого нуклеотида до нуклеотида, предшествовашего стартовому нуклеотиду самого гена.

Про анализ MEME:

Запускал я программу с такими параметрами:

Рис. 1. Параметры запуска программы поиска мотивов MEME

Как вы можете заметить, я подавал свои частоты нуклеотидов в файле, так как посчитал это более объективным, чем подавать базовые частоты по умолчанию. То, как я его сделал, заслуживает отдельного внимания.

Воспользовался я программой fasta-get-markov (которая, к счастью, установлена на kodomo ), чтобы из генома коронавируса, чьи upstream'ы я взял, создать Марковскую background model нулевого порядка (честно говоря, как на точность поиска повлияет модель большего порядка, я не знаю), что является, по сути, определением частот нуклеотидов для поиска. Воспользовался я такой командой:

$ fasta-get-markov -norc < sequence.fasta > BM_SARS-CoV-2.markov

-norc - указываем, чтобы программа воспринимала только данную (одну) цепь и не учитывала комплементарную;
< sequence.fasta - подаём на STDIN файл с геномом коронавируса. Стоит отметить, что программа (установленная на kodomo) понимает ТОЛЬКО STDIN и ТОЛЬКО fasta;
> BM_SARS-CoV-2.markov - записываем выход со STDOUT в файл. Стоит иметь ввиду, что выдаёт он ТОЛЬКО в STDOUT, и именно оттуда нам надо ловить файлы.

Про параметры запуска MEME дополню, что я решил ограничить длину мотива отрезком от 6 нуклеотидов до 10, руководствуясь тем, что CS мотива разрывной транскрипции моего коронавируса (по литературе) составляет 6 нуклеотидов, и всё, что найдётся меньше этой длины, меня особо устраивать не будет, а верхняя граница задана для того, чтобы фильтровать слишком длинные мотивы.

Здесь вы сможете найти полную текстовую выдачу MEME.

Только один найденный мотив достоин нашего внимания, так как остальные (в моем случае остальные 2) получили e-value больше 1. Представляю вам его LOGO:

Нашлись сигналы из этого мотива только перед 9-ю генами из предложенных 11 (перед 82% генов), включая upstream полипротеина, что говорит нам о том, что мы нашли 1 TRS-L и 8 TRS-B (хотя в идеале было бы круто найти все 10, но и так сойдет). Сразу отметим, что четко видна Core Sequence - ACGAAC, которая совпадает с литературной.

Ниже прикрепляю PWM найденных сигналов, посчитана она также с помощью кода, который я прикреплял в самом начале отчета.

Таблица 2. PWM c псевдоотчетами найденных сигналов. E - ожидаемая частота нуклеотида, взялась из GC% генома
	E	1	2	3	4	5	6	7	8	9
A	0.31	-7.93	1.17	1.17	1.05	-7.93	-1.03	1.05	1.17	-7.93
T	0.31	1.17	-7.93	-7.93	-1.03	-7.93	-7.93	-7.93	-7.93	-7.93
C	0.19	-7.44	-7.44	-7.44	-7.44	1.54	-7.44	-0.54	-7.44	1.54
G	0.19	-7.44	-7.44	-7.44	-7.44	-0.54	1.54	-7.44	-7.44	-0.54
sum	1.00	-21.65	-21.65	-21.65	-14.86	-14.86	-14.86	-14.86	-21.65	-14.86

Результат мне кажется довольно хорошим, так как сигналы нашлись перед большинством генов, e-value мотива шикарен (1e-8), и литературная CS в нашем мотиве также нашлась.