Сигналы и мотивы Ⅱ

Задание 1

Нужно было вычислить информационное содержание (IC) последовательностей Козак в геноме Danio Rerio. Известно, что GC-состав Danio Rerio - 38.6%.

Для этого я выполнила следующие действия:

Скачать таблицу с вычислениями можно по ссылке.

мотивы
Рисунок 1. LOGO для выравнивания

Задание 2. Поиск 'идеального' мотива

На странице практикума 6 я опубликовала всю выдачу MEME возможных сигналов коронавируса Human betacoronavirus 2c EMC/2012. Теперь среди предложенных мотивов я хочу отыскать такой, который бы подтвердил гипотезу о сигналах регуляции синтеза мРНК поздних генов.

Проверить я решила первую выдачу MEME, так она мне показалалась наиболее достоверной. Для этого я загрузила PMW первого мотива (создается MEME) в программу FIMO. Результат работы программы можно увидеть на Рисунке 2.

мотивы
Рисунок 2. Выдача FIMO для первого мотива

В выдаче программы FIMO было 12 находок, из которых 8 располагались перед генами. Другие 4 находки попали в гены, кодирующие белки: 3 оказались внутри гена ORF1ab полипротеина, 1 - внутри гена S.

Мне стало интересно, почему не перед каждым поздним геном нашелся сигнал. А именно сигнала не оказалось перед генами orf4b (кодирует NS4B protein) и orf8b (кодирует ORF8b protein). Я еще раз посмотрела на координаты генов в геноме (Таблица 1) и обнаружила, что ген orf8b находится внутри гена N. По ссылке можно увидеть их выравнивание. Преждевременной терминации трансляции белка гена N не происходит, потому что рамка считывания другая. Похожая ситуация с геном orf4b, он "наезжает" на ген orf4a. Возможно, у таких генов особый сигналинг.

Таблица 1. Гены и их координаты в геноме вируса
Ген Координаты Кодируемый белок
orf1ab 279..21514 1AB polyprotein
S 21456..25517 spike glycoprotein
orf3 25532..25843 NS3 protein
orf4a 25852..26181 NS4A protein
orf4b 26093..26833 NS4B protein
orf5 26840..27514 NS5 protein
E 27590..27838 envelope protein
M 27853..28512 membrane protein
N 28566..29807 nucleoprotein
orf8b 28762..29100 ORF8b protein

Информация, которую несёт мотив:

Построение LOGO для последовательности Козак вируса

В википедии я взяла LOGO для последовательности Козак различных мРНК человека. Её можно увидеть на Рисунке 3. Затем для гена полипротеина и каждого позднего гена я взяла окружение старт-кодона (по 5 нуклеотидов до и после) и файл загрузила в MEME. На Рисунке 5 можно увидеть LOGO равнивания 'последовательностей Козак' вируса. Можно заметить, что на позиции -3 вируса действительно чаще встречается аденин, как и у последовательности Козак человек. Больше сходств я не нашла.

мотивы
Рисунок 3. Наиболее консервативные основания, окружающие стартовый кодон в структуре различных мРНК человека
мотивы
Рисунок 4. LOGO последовательностей Козак вируса

Поиск сигнала в близкородственных видах

Для определения специфичности сигнала был выбран другой штамм Coronavirus Neoromicia/PML-PHE1/RSA/2011 вида Middle East respiratory syndrome-related coronavirus. Был выбран и более дальний родственник Severe acute respiratory syndrome coronavirus 2, который тоже относится к роду бетакоронавирусов. Выдача FIMO показана на Рисунке 5.

NC_044512.2 - SARS-2

KC869678.4 - Coronavirus Neoromicia/PML-PHE1/RSA/2011

мотивы
Рисунок 5. Выдача FIMO для близкородственных видов

Находок довольно много, особенно в другом штамме. Причем, если убрать из рассмотрения находки на обратной цепи, наблюдается полное соответствие консенсусной последовательности. Также можно заметить, что нашлись сигналы в лидерной последовательно, что также является хорошим знаком.

Вернуться на главную