Поиск мотивов, MEME
Задание 6.1: PWM с псевдоотчетами
Здесь вы можете найти мою PWM последовательностей Козак человека.
Задание 6.2: В геноме одного из Coronaviridae найти мотив сайта разрывной транскрипции sgRNA
Для выполнения этого задания я выбрал геном SARS-CoV-2.
Исходя из features приведённой выше записи, с помощью этого
кода была составлена таблица с координатами upstream-областей генома, а также собран
Таблица 1. Координаты upstream-областей генома коронавируса | ||
---|---|---|
Upstream-область перед каким геном? | Координата начала | Координата конца |
ORF1ab | 1 | 264 |
S | 21461 | 21561 |
ORF3a | 25291 | 25391 |
E | 26143 | 26243 |
M | 26421 | 26521 |
ORF6 | 27100 | 27200 |
ORF7a | 27292 | 27392 |
ORF7b | 27654 | 27754 |
ORF8 | 27792 | 27892 |
N | 28172 | 28272 |
ORF10 | 29456 | 29556 |
Конечной координатой upstream'ов поздних генов бралась координата нуклеотида, предшествующего стартовому нуклетиду гена, а начальной - координата нуклеотида, находящегося на 100 нуклеотидов левее нуклеотида с конечной координатой; для гена полипротеина ORF1ab upstream занимал всю область от первого нуклеотида до нуклеотида, предшествовашего стартовому нуклеотиду самого гена.
Про анализ MEME:
Запускал я программу с такими параметрами:

Как вы можете заметить, я подавал свои частоты нуклеотидов в файле, так как посчитал это более объективным, чем подавать базовые частоты по умолчанию. То, как я его сделал, заслуживает отдельного внимания.
Воспользовался я программой
$ fasta-get-markov -norc < sequence.fasta > BM_SARS-CoV-2.markov
-
-norc - указываем, чтобы программа воспринимала только данную (одну) цепь и не учитывала комплементарную; -
< sequence.fasta - подаём на STDIN файл с геномом коронавируса. Стоит отметить, что программа (установленная наkodomo ) понимает ТОЛЬКО STDIN и ТОЛЬКО fasta; -
> BM_SARS-CoV-2.markov - записываем выход со STDOUT в файл. Стоит иметь ввиду, что выдаёт он ТОЛЬКО в STDOUT, и именно оттуда нам надо ловить файлы.
Про параметры запуска MEME дополню, что я решил ограничить длину мотива отрезком от 6 нуклеотидов до 10, руководствуясь тем, что CS мотива разрывной транскрипции моего коронавируса (по литературе) составляет 6 нуклеотидов, и всё, что найдётся меньше этой длины, меня особо устраивать не будет, а верхняя граница задана для того, чтобы фильтровать слишком длинные мотивы.
Здесь вы сможете найти полную текстовую выдачу MEME.
Только один найденный мотив достоин нашего внимания, так как остальные (в моем случае остальные 2) получили e-value больше 1. Представляю вам его LOGO:

Нашлись сигналы из этого мотива только перед 9-ю генами из предложенных 11 (перед 82% генов), включая upstream полипротеина, что говорит нам о том, что мы нашли 1 TRS-L и 8 TRS-B (хотя в идеале было бы круто найти все 10, но и так сойдет). Сразу отметим, что четко видна Core Sequence - ACGAAC, которая совпадает с литературной.
Ниже прикрепляю PWM найденных сигналов, посчитана она также с помощью кода, который я прикреплял в самом начале отчета.
Таблица 2. PWM c псевдоотчетами найденных сигналов. E - ожидаемая частота нуклеотида, взялась из GC% генома | ||||||||||
---|---|---|---|---|---|---|---|---|---|---|
E | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | |
A | 0.31 | -7.93 | 1.17 | 1.17 | 1.05 | -7.93 | -1.03 | 1.05 | 1.17 | -7.93 |
T | 0.31 | 1.17 | -7.93 | -7.93 | -1.03 | -7.93 | -7.93 | -7.93 | -7.93 | -7.93 |
C | 0.19 | -7.44 | -7.44 | -7.44 | -7.44 | 1.54 | -7.44 | -0.54 | -7.44 | 1.54 |
G | 0.19 | -7.44 | -7.44 | -7.44 | -7.44 | -0.54 | 1.54 | -7.44 | -7.44 | -0.54 |
sum | 1.00 | -21.65 | -21.65 | -21.65 | -14.86 | -14.86 | -14.86 | -14.86 | -21.65 | -14.86 |
Результат мне кажется довольно хорошим, так как сигналы нашлись перед большинством генов, e-value мотива шикарен (1e-8), и литературная CS в нашем мотиве также нашлась.