Задания практикума 6

Ход Работы для заданий 2, 3

Работа была выполнена на Python. Мною самостоятельно был написан код. Я прекрасно понимаю, что качество кода оставляет желать лучшего. Но в данном практикуме это, как написано, не оценивается, а лекция по numpy только через месяц.

Выбор хромосомы и прочтение таблицы с генами

Я выбрала хромосому X, прямую цепь.

Получим таблицу с информацией о 100 генах на Х хромосоме, длина которых больше 3000

Отберем последовательности для положительного и отрицательного контроля. Длина последовательностей должна быть 13. Для положительного контроля - последовательностей "7 + ATG + 3", для последовательности длиной 13 нуклеотидов, внутри которых есть ATG.

Создание файлов с последовательностями для train, test, negative

Находим, где в 13нуклеотидных последовательностях внутри гена есть ATG. Внутри гена - от 187 нуклеотидов от начала гена. Расстояния может быть иным, не имеет значения, главное, что не начало гена.

Напишем функции, считающие PWM и IC

Чем больше IC(j), тем больше частоты букв в колонке отличаются от ожидаемых, тем больше информации в колонке

Найдем средний сигнал для последовательности по PWM

Проверим насколько значимо получить такие отличия в положительном и отрицательном контроле, используя тест Манна-Уитни.

Задание 3