Практикум 8


Поиск последовательностей

Для выполнения задания я выбрал последовательность Козак у человека. Это последовательность старт-кодона ATG. Для получения последовательностей я воспользовался скриптом Влада. На вход программе подаётся аннотированная таблица генов человека.

На выходе программа дала:

Материал обучения - файл, содержащий выровненные последовательности без гэпов

Материал тестирования - файл, содержащий последовательности в которых ожидается наличие сигнала

Негативный контроль - файл, содержащий случайные последовательности той же длины

PWM - позиционную весовую матрицу

...
Рис.1 Гистограмма весов последовательностей обучающей выборки (зеленый), тестовой выборки (желтый) и негативной выборки (красный)

На основании диаграм выше определим пороговое значение равным 4.0, т. к. после него отсеивается большая часть негативной выборки.

Сигнал Обучающая выборка Тестовая выборка Негативная выборка
+ 83 (83%) 230 (77%) 111 (37%)
- 17 (17%) 70 (23%) 189 (63%)
Табл. 1 Количество последовательностей, отобранных по порогу

Вычислим информационное содержание выравнивания (IC). Для этого воспользуемся скриптом Влада. Получим матрицу IC

1 2 3 4 5 6 7 8 9 10 11 12 13
A -0.093 -0.103 -0.128 -0.103 0.139 -0.021 -0.093 1.761 0.0 0.0 -0.071 0.07 -0.103
C 0.165 0.038 0.206 0.126 -0.093 0.315 0.46 0.0 0.0 0.0 -0.046 0.386 0.038
G 0.126 0.435 0.107 0.27 0.386 -0.034 0.165 0.0 0.0 2.286 0.589 -0.034 0.315
T -0.112 -0.151 -0.083 -0.141 -0.156 -0.135 -0.128 0.0 1.761 0.0 -0.157 -0.151 -0.121
Табл. 2 Матрица IC

Также подадим обучающую выборку в сервис WebLOGO 3.

...
Рис.2 WebLOGO

По полученным данным можно сказать, что позиции 5, 7, 11, 12 обладают более-менее значимым информационным весом и, возможно, играют некоторую функцию при узнавании последовательности, хотя сказать трудно. Также видим, что последовательность ATG абсолютно консервативна (по крайней мере для белок-кодирующих последовательностей человека)