Для выполнения данного задания я выбрал последовательность Козак, которая облегчает инициацию трансляции у эукариот. Первым этапом данной работы было создание выборок: 100 последовательностей для обучающей, 300 для тестовой и 300 для отрицательного контроля. Всегда выбирался следующий промежуток: 7 нуклеотидов до ATG + ATG + 3 нуклеотида после ATG (согласно рекомендации по выполнению данного задания). Для обучающей и тестовой выборок использовались координаты старт кодона, которые были получены из таблицы генов человека (в формате tsv). Для отрицательного контроля набирались последовательности того же формата, что и в обучающей выборке (7 нуклеотидов до ATG + ATG + 3 нуклеотида после ATG). Координаты ATG брали, по данным той же таблицы, исключая случаи, когда им соответствуют начала генов. Для построения PWM, создания выборок и гистограмм распределения весов последовательностей я использовал код Варвары Сафоновой.
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
A | -0.206 | -0.206 | -0.249 | -0.089 | 0.05 | 0.227 | -0.249 | 1.218 | -5.691 | -5.691 | -0.126 | 0.199 | -0.293 |
C | 0.414 | 0.115 | 0.347 | 0.347 | -0.455 | 0.312 | 0.506 | -5.327 | -5.327 | -5.327 | -0.536 | 0.414 | 0.275 |
G | 0.381 | 0.643 | 0.238 | 0.381 | 0.643 | -0.312 | 0.414 | -5.327 | -5.327 | 1.582 | 0.892 | -0.076 | 0.476 |
T | -0.676 | -0.745 | -0.293 | -0.745 | -0.551 | -0.389 | -0.899 | -5.691 | 1.218 | -5.691 | -0.899 | -0.745 | -0.494 |
Пороговый вес я определил равным 4.5, так как в тестовой выборке на данном значении все еще сохранялась высокая частота, а в отрицательном контроле нет (рис. 1), что также подтверждается данными таблицы 2.
обучающая выборка | тестовая выборка | отрицательный контроль | |
---|---|---|---|
сигнал + | 63 (63%) | 190 (63,3%) | 83 (27,7%) |
сигнал - | 37 (37%) | 110 (36,7%) | 217 (72,3%) |
Информационное содержание было проанализировано, и по полученным даннным построена матрица IC (таблица 3).
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
A | -0.071 | -0.071 | -0.083 | -0.034 | 0.022 | 0.121 | -0.083 | 1.761 | 0.0 | 0.0 | -0.047 | 0.103 | -0.093 |
C | 0.185 | 0.038 | 0.145 | 0.145 | -0.085 | 0.126 | 0.248 | 0.0 | 0.0 | 0.0 | -0.093 | 0.185 | 0.107 |
G | 0.165 | 0.362 | 0.089 | 0.165 | 0.362 | -0.068 | 0.185 | 0.0 | 0.0 | 2.286 | 0.643 | -0.021 | 0.227 |
T | -0.146 | -0.151 | -0.093 | -0.151 | -0.135 | -0.112 | -0.156 | 0.0 | 1.761 | 0.0 | -0.156 | -0.151 | -0.128 |
Обучающая выборка была загружена в WebLOGO 3. На полученной схеме (рис. 2) можно выделить позиции 11 и 5 по наличию гуанина с "высоким" информационным содержанием. Я ожидал получить хорошие значения для аденина и цитозина на позициях 4 и 6, а также цитозина в позиции 12, так как эти участки являются наиболее значимыми для инициации трансляции (ссылка на статью). Эта неточность может быть связана с малым количеством анализируемых последовательностей.