Практикум 8.

Задание 1.

Задание 2.

Для выполнения данного задания я выбрал последовательность Козак, которая облегчает инициацию трансляции у эукариот. Первым этапом данной работы было создание выборок: 100 последовательностей для обучающей, 300 для тестовой и 300 для отрицательного контроля. Всегда выбирался следующий промежуток: 7 нуклеотидов до ATG + ATG + 3 нуклеотида после ATG (согласно рекомендации по выполнению данного задания). Для обучающей и тестовой выборок использовались координаты старт кодона, которые были получены из таблицы генов человека (в формате tsv). Для отрицательного контроля набирались последовательности того же формата, что и в обучающей выборке (7 нуклеотидов до ATG + ATG + 3 нуклеотида после ATG). Координаты ATG брали, по данным той же таблицы, исключая случаи, когда им соответствуют начала генов. Для построения PWM, создания выборок и гистограмм распределения весов последовательностей я использовал код Варвары Сафоновой.

  1. скрипт
  2. файл с обучающей выборкой
  3. файл с тестовой выборкой
  4. файл с последовательностями для отрицательного контроля
  5. файл с PWM
  6. файл с IC матрицой
Таблица 1. PWM (красным цветом выделены номера нуклеотидов, соответствующих ATG).
1 2 3 4 5 6 7 8 9 10 11 12 13
A -0.206 -0.206 -0.249 -0.089 0.05 0.227 -0.249 1.218 -5.691 -5.691 -0.126 0.199 -0.293
C 0.414 0.115 0.347 0.347 -0.455 0.312 0.506 -5.327 -5.327 -5.327 -0.536 0.414 0.275
G 0.381 0.643 0.238 0.381 0.643 -0.312 0.414 -5.327 -5.327 1.582 0.892 -0.076 0.476
T -0.676 -0.745 -0.293 -0.745 -0.551 -0.389 -0.899 -5.691 1.218 -5.691 -0.899 -0.745 -0.494
Рис. 1. Гистограммы весов в обучающей последовательности (голубой), в тестовой выборке (желтый) и отрицательном контроле (зеленый).

Пороговый вес я определил равным 4.5, так как в тестовой выборке на данном значении все еще сохранялась высокая частота, а в отрицательном контроле нет (рис. 1), что также подтверждается данными таблицы 2.

Таблица 2 Наличие сигнала в выборках определялось по критерию: вес >= 4.5.
обучающая выборка тестовая выборка отрицательный контроль
сигнал + 63 (63%) 190 (63,3%) 83 (27,7%)
сигнал - 37 (37%) 110 (36,7%) 217 (72,3%)

Информационное содержание было проанализировано, и по полученным даннным построена матрица IC (таблица 3).

Таблица 3. IC таблица (красным цветом выделены номера нуклеотидов, соответствующих ATG).
1 2 3 4 5 6 7 8 9 10 11 12 13
A -0.071 -0.071 -0.083 -0.034 0.022 0.121 -0.083 1.761 0.0 0.0 -0.047 0.103 -0.093
C 0.185 0.038 0.145 0.145 -0.085 0.126 0.248 0.0 0.0 0.0 -0.093 0.185 0.107
G 0.165 0.362 0.089 0.165 0.362 -0.068 0.185 0.0 0.0 2.286 0.643 -0.021 0.227
T -0.146 -0.151 -0.093 -0.151 -0.135 -0.112 -0.156 0.0 1.761 0.0 -0.156 -0.151 -0.128

Обучающая выборка была загружена в WebLOGO 3. На полученной схеме (рис. 2) можно выделить позиции 11 и 5 по наличию гуанина с "высоким" информационным содержанием. Я ожидал получить хорошие значения для аденина и цитозина на позициях 4 и 6, а также цитозина в позиции 12, так как эти участки являются наиболее значимыми для инициации трансляции (ссылка на статью). Эта неточность может быть связана с малым количеством анализируемых последовательностей.

Рис. 2. LOGO для последовательности Козак.