Учебный сайт Лидии Гаркуль

Сигналы и мотивы.

1. Создание позиционной весовой матрицы (PWM) для последовательностей Козак одного из организмов

На основе данных из статьи Grzegorski et al., PLoS ONE 9(9): e108475, 2014 была получена матрица PWM для участка от -3 до 4 (считалось, что число в ячейке матрицы равно числу соответствующих букв в колонке). Полученные таблицы можно найти тут.

2. Поиск мотива сайта разрывной транскрипции sgRNA в геноме одного из коронавирусов (Coronaviridae) с помощью программы MEME

sgmRNA - субгеномная матричная РНК коронавирусов (Coronaviridae) и некоторых других нидовирусов (Nidovirales). Она образуется путем объединения гена позднего белка с лидерной последовательностью при образовании -РНК, с последующей репликацией полученной -sgRNA в +sgRNA. Сигналы разрывной транскрипции направляют перескок вирусной РНК-зависимой РНК-полимеразы (RdRP) при синтезе -RNA.

В лидерной последовательности находится сигнал называемый TRS-L (TRS от Transcription-Regulating Sequence). Перед кодирующей последовательностью каждого позднего гена находятся последовательности TRS-B. Все сигналы TRS-B и TRS-L включают одинаковую последовательность из шести нуклеотидов. Последовательность называется CS (от Core Sequence). В статье Sonia Zúñiga 2004 года [1] она приводится в явном виде: 5′-CTAAAC-3′. Сигналы TRS шире CS на несколько (неизвестно сколько) нуклеотидов с 5' и 3' стороны.

Целью данного практикума заключалась в поиске данных сигналов с помощью программы MEME.

Подготовка входных последовательностей

Для поиска мотивов был выбран геном Severe acute respiratory syndrome coronavirus 2. Файл с полным геномом вируса можно найти по ссылке. Сначала был составлен файл с координатами upstream областей перед геном полипротеина (orf1ab) и перед каждым поздним геном. Далее с помощью утилит из EMBOSS был получен отдельный файл с upstream областями - upstream.fasta. Историю команд можно найти тут.

Нахождение мотива CS с помощью MEME

Итоговый файл анализировался с помощью программы MEME. Параметры поиска мотивов указаны ниже:

Выдачу программы в текстовом виде можно найти по ссылке.

Расположение найденных мотивов представлено ниже.

motif_location
Рис. 1. Расположение найденных мотивов.

Наиболее распространенный мотив (красный цвет на рис. 1.) найден в 7 последовательностях из 11. Но данная последовательность не обружена перед полипротеином. При этом в мотиве найдена последовательность CS. На рисунке 2 представлен данный мотив с выделенным CS участком.
Еще один достаточно консервативный участок (зеленый цвет на рис. 1.) найден в пяти последовательностях, включая upstream область orf1ab. Он представлен на рисунке 3.

cs_motif
Рис. 2. Предполагаемый CS мотив (выделен рамкой).
motif_2
Рис. 3. "Зеленый" мотив.

Литература

1. Sonia Zúñiga, Isabel Sola, Sara Alonso, and Luis Enjuanes. Sequence Motifs Involved in the Regulation of Discontinuous Coronavirus Subgenomic RNA Synthesis. J Virol. 2004 Jan; 78(2): 980–994. doi: 10.1128/JVI.78.2.980-994.2004