Левин И., 4-й семестр, практикум 7

Поиск сигналов по мотиву, FIMO

Задание 7.1: IC (информационное содержание)

Здесь вы сможете найти IC последовательностей Козак и их LOGO.

Задание 7.2: найти сайты разрывной транскрипции sgmRNA в геноме своего коронавируса

В этом практикуме я использовал достаточно много кода на Python, поэтому сразу прикреплю Jupyter Notebook с кодом, на который я буду ссылкаться в течение всего практикума и называть его условно "код на Python".

Для начала нам нужно было, используя FIMO, поискать в том же самом геноме коронавируса сигналы, описываемые мотивом, который мы нашли в прошлом практикуме. При этом также имело смысл поискать подобные сигналы в геномах других родственных коронавирусов, и я так и сделал: дополнительно провел поиск по геному SARS-CoV-Tar2 (тот же вид SARS, что и SARS-CoV-2, но другой штамм; геном SARS-CoV-2 далее буду называть исходным геномом), а также по геному одного коронавируса из вида Merbecovirus, который принадлежит к тому же роду Betacoronavirus, что и SARS.

С помощью кода на Python я слил все геномы в 1 файл в формате fasta, после чего вместе с мотивом (который я, между делом, подал на вход FIMO через submit MEME) подал на вход FIMO, т. о. обеспечив поиск сигналов сразу по 3-м геномам. Также стоит отметить, что я оставил все параметры запуска по умолчанию, включая порог на p-value (1е-4).

Здесь вы сможете найти полные результаты в tsv-формате.

С помощью кода на Python я проанализировал полученные результаты и пришел к таким выводам:

В исходном геноме нашлось 10 сигналов, из которых 2 не попали в указанные мной в прошлом практикуме upstream'ы, а также upstream'ы 3-х генов (ORF6, ORF7b и ORF10) остались обделёнными в плане сигналов. В итоге у нас получается, что сигналы нашлись у нас перед 8 из 11 генов (73% генов) при этом у всех отличный p-value, соответствующий установленному достаточно высокому порогу. Я думаю, что это можно счесть хорошим результатом, так как он достаточно близок к идеалу, заключающемуся в том, чтобы найти сигнал перед каждым поздним геном + перед полипротеином (а перед ним у нас все хорошо нашлось), то есть всего 11 штук.
В геноме SARS-CoV-Tar2 у нас нашлось 9 сигналов, при этом только 6 штук попали в область перед каким-либо геном (включая ген полипротеина). Идеалу этот результат соответствует на 55%, что, мне кажется, довольно средний результат и говорит он о том, что в целом результат поиска сигналов по SARS у меня вышел среднего качества. Думаю, его можно было бы улучшить, понизив порог на p-value, наверняка он отсеял несколько хороших находок.
В геноме же Merbecovirus у нас нашелся всего 3 сигнала и все не попали ни в один upstream, что является отвратительным результатом и говорит нам о том, что мотив как минимум видоспецифичен.

Теперь построим LOGO последовательностей Козак генома исходного коронавируса. Выравнивание последовательностей Козак я составил с помощью кода на Python, полученный файл я подал на вход WebLOGO:

Рис. 1. Параметры запуска программы WebLOGO

Сразу стоит указать на то, что в параметрах запуска я указал GC-состав исходного генома коронавируса для более точного построения LOGO.

По рис. 2 точно нельзя сказать, что вокруг ATG наблюдается какая-то консервативность последовательностей. При этом последовательность Козак SARS-CoV-2 довольно-таки не похожа на известные последовательности Козак хотя бы потому, что у коронавируса не получается выделить консенсусную последовательность Козак (по крайней мере лично мне это сделать довольно затруднительно).