Для выполнения задания я выбрал последовательность Козак у человека. Это последовательность старт-кодона ATG. Для получения последовательностей я воспользовался скриптом Влада. На вход программе подаётся аннотированная таблица генов человека.
На выходе программа дала:
Материал обучения - файл, содержащий выровненные последовательности без гэпов
Материал тестирования - файл, содержащий последовательности в которых ожидается наличие сигнала
Негативный контроль - файл, содержащий случайные последовательности той же длины
PWM - позиционную весовую матрицу
На основании диаграм выше определим пороговое значение равным 4.0, т. к. после него отсеивается большая часть негативной выборки.
Сигнал | Обучающая выборка | Тестовая выборка | Негативная выборка |
---|---|---|---|
+ | 83 (83%) | 230 (77%) | 111 (37%) |
- | 17 (17%) | 70 (23%) | 189 (63%) |
Вычислим информационное содержание выравнивания (IC). Для этого воспользуемся скриптом Влада. Получим матрицу IC
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
A | -0.093 | -0.103 | -0.128 | -0.103 | 0.139 | -0.021 | -0.093 | 1.761 | 0.0 | 0.0 | -0.071 | 0.07 | -0.103 |
C | 0.165 | 0.038 | 0.206 | 0.126 | -0.093 | 0.315 | 0.46 | 0.0 | 0.0 | 0.0 | -0.046 | 0.386 | 0.038 |
G | 0.126 | 0.435 | 0.107 | 0.27 | 0.386 | -0.034 | 0.165 | 0.0 | 0.0 | 2.286 | 0.589 | -0.034 | 0.315 |
T | -0.112 | -0.151 | -0.083 | -0.141 | -0.156 | -0.135 | -0.128 | 0.0 | 1.761 | 0.0 | -0.157 | -0.151 | -0.121 |
Также подадим обучающую выборку в сервис WebLOGO 3.
По полученным данным можно сказать, что позиции 5, 7, 11, 12 обладают более-менее значимым информационным весом и, возможно, играют некоторую функцию при узнавании последовательности, хотя сказать трудно. Также видим, что последовательность ATG абсолютно консервативна (по крайней мере для белок-кодирующих последовательностей человека)