Практикум №7

Сигналы и мотивы-2

Вычисление информационного содержание (IC) последовательностей Козак и построение LOGO этого сигнала

В этом задании я вычислил информационное содержание (IC) последовательностей Козак и построил LOGO этого сигнала, основываясь на данных последовательностях (файл).

Поиск сайтов разрывной транскрипции sgmRNA в геноме коронавируса

В этом задании я, основываясь на выполнении задания 6.2 предыдущего практикумума, должен был проанализировать полученный мотив. Для этого я подготовил входной файл, используя веб-версию MEME и указав, что мне необходим только 1 мотив (файл). В качестве базы использовалась ДНК вируса, так как требуется посмотреть на то, где расположен "мой" мотив.

Для сравнения были выбраны 3 вируса, выбранных на чисто случайном основании привлекательности названия: Bulbul coronavirus HKU11; Pipistrellus bat coronavirus HKU5 и исходный Shrew Coronavirus.

Из них были подготовлены файлы в fasta-формате, которые вместе с файлом с 1 мотивом были переданы FIMO [1]. Получили 3 файла: Shrew-CoV, Bulbul-CoV, Pipistrellus-CoV.

Ниже представлены отредактированные таблицы выдачи. Я удалил колонку "Motiv ID", так как я ищу единственный мотив ("CAMGWAWWACMCACWSWGGMTSTWYKYKTGGTCYARMMC"), а также я удалил "Alt ID", так как для всех таблиц он имеет вид "Meme-1", что не несёт дополнительной информации, но ухудшает восприятие.

Sequence Name Strand Start End p-value q-value Matched Sequence
NC_046955.1 + 24815 24853 4.47e-24 1.19e-19 CAAGTAATACCCACACAGGATGTTTGCTTGGTCTAAACC
NC_046955.1 + 278 316 2.29e-16 3.04e-12 CACGAATAACACACTGTGGCTCTACTTGTGGTCCAGCAC
NC_046955.1 + 7989 8027 9.02e-05 0.634 CTCGATAACACCACAGTTGTTGAATGATTATGCCAATAT
NC_046955.1 + 16089 16127 9.51e-05 0.634 GCACAATCACACACTTATGAAGCTCTTTCTGACAAATAC

Таблица 1. Поиск мотива в геноме Shrew-Cov.

Sequence Name Strand Start End p-value q-value Matched Sequence
NC_009020.1 + 26549 26587 3.04e-05 0.463 TGTGATAAACCCACACATTGTATTCGCTTGGTTTTTGAT
NC_009020.1 + 16037 16075 3.28e-05 0.463 AATGTCTTCATGTCAGAGGCTAAATGCTGGGTGGAAACC
NC_009020.1 + 21302 21340 6.15e-05 0.463 GAAACAAATGAAGCAAAGGCGCTTTTCTTTGTGTATCTC
NC_009020.1 + 22077 22115 6.35e-05 0.463 CAAGTGGAGTCCTTTGATGATGGCTTTGTGGTCCGTATT
NC_009020.1 + 16521 16559 7.64e-05 0.463 TACGAAGACCCTTCCTTTGCTGTAAGTGTTGTTATGACC

Таблица 2. Поиск мотива в геноме Pipistrellus bat coronavirus HKU5.

Sequence Name Strand Start End p-value q-value Matched Sequence
NC_011547.1 + 14769 14807 5.35e-05 0.678 TACAAATTACAAACTGGTGATGTACTTGTACTTATGGCA
NC_011547.1 + 15261 15299 6.57e-05 0.678 TATGAGCTTTCTTCAGTAAATGCTCGTTTGGTTTACAAC
NC_011547.1 + 10378 10416 7.98e-05 0.678 CAAATTTTGCCTATACATGCTGTAGTGGGTGTGTCAAAT

Таблица 3. Поиск мотива в геноме Bulbul coronavirus HKU11-934.

Как видно из представленных таблиц, мотив встречается в исходном геноме 4 раза из 5, в геноме Bulbul-Cov - 3 раза из 9 (но если не считать "nonstructural protein", то всего 5), в геноме Pipistrellus bat-Cov - 3 из 9 (опять же, если не считать "hypothetical protein", то всего 6).

Далее при помощи Meme был построен logo последовательности Козак для исходного вируса. Для logo были взяты участки -6 7, чтобы провести сравнение с человеческой последовательностью Козак.

Рис. 1. Сравнение последовательностей Козак Shrew-Cov (слева) и Human [2] (справа).

Как видно, сходства почти нет. Только в позициях -3 (наиболее вероятен Аденин) и 5 (наиболее вероятен Цитозин).

То, что данный мотив находится в 4 из 5 генах данного вируса, скорее всего, подверждает правильность находки. Но вот то, что этот же мотив можно найти в других вирусах семейства Coronaviridae, вероятно, говорит о том, что он не специфичен для данного вида.


Update

После того, как я переделал 6 практикум и немного улучшил свой мотив, я решил переделать и FIMO: Shrew-Cov; Bulbul-Cov и Pipistrellus-CoV. Полученный мотив: TACCMGGTGTTA.

Motif ID Sequence Name Strand Start End p-value q-value Matched Sequence
1 NC_046955.1 + 24771 24782 6.75e-08 0.00159 TACCAGGTGTTA
1 NC_046955.1 + 26 37 1.21e-07 0.00159 TACCCGGTGTTA
1 NC_046955.1 + 2441 2452 2.01e-06 0.0176 TACCAAGTGTTA
1 NC_046955.1 + 15334 15345 7.36e-06 0.0483 TACCGGATGTTA
1 NC_046955.1 + 10889 10900 6.78e-05 0.301 TAACCGTTGTTA
1 NC_046955.1 + 13459 13470 8.13e-05 0.301 AACCTGGTGGTA
1 NC_046955.1 + 3707 3718 9.17e-05 0.301 TAGCTGGTGTTG
1 NC_046955.1 + 8711 8722 9.17e-05 0.301 TGCATGGTGTTA

Таблица 4. Поиск укороченного мотива в геноме Shrew-Cov.

Motif ID Sequence Name Strand Start End p-value q-value Matched Sequence
1 NC_009020.1 + 23060 23071 7.36e-06 0.223 TACCGGTTGTTA
1 NC_009020.1 + 28060 28071 1.89e-05 0.286 TACCAGCTGTTC
1 NC_009020.1 + 14708 14719 3.4e-05 0.343 TACAAGGAGTTA

Таблица 5. Поиск укороченного мотива в геноме Pipistrellus-Cov.

Motif ID Sequence Name Strand Start End p-value q-value Matched Sequence
1 NC_011547.1 + 17420 17431 2.88e-05 0.299 TACCAGATGTAA
1 NC_011547.1 + 23491 23502 4.14e-05 0.299 TAGCAGGTATTA
1 NC_011547.1 + 18661 18672 6.93e-05 0.299 TGCCTGGTGTTG
1 NC_011547.1 + 21555 21566 6.93e-05 0.299 TGCCGGGTGTTG
1 NC_011547.1 + 7277 7288 7.59e-05 0.299 AACCTGGTGTTT
1 NC_011547.1 + 6770 6781 8.74e-05 0.299 TACCTGGTATTC
1 NC_011547.1 + 1391 1402 9.17e-05 0.299 TAGCTGGTGTTG
1 NC_011547.1 + 3497 3508 9.17e-05 0.299 TAACTGGTGTTG

Таблица 6. Поиск укороченного мотива в геноме Bulbul-Cov.

Данный мотив встречается в вирусах того же семейства достаточно часто, что, скорее всего, говорит о его неспецифичности.



[1] Charles E. Grant, Timothy L. Bailey, and William Stafford Noble, "FIMO: Scanning for occurrences of a given motif", Bioinformatics, 27(7):1017-1018, 2011.

[2] Kozak consensus sequence (ссылка)