Назад на страницу семестра
Python-скрипт для данного задания любезно предоставлен Дмитрием Звездиным (с изменениями).
Для построения матрицы было получено 100 фрагментов генов человека из предложенной в задании таблицы (только с '+'-цепей), сожержащих стартовый ATG. Для проверки матрицы было скачано ещё 100 других фрагментов со стартовым ATG (положительный контроль) и 100 фрагментов с ATG, расположенным более чем в 200 нуклеотидах от начала гена (нестартовые ATG; отрицательный контроль).
Ожидаемые частоты встречаемости нуклеотидов рассчитывались, исходя из среднего содержания GC в человеческом геноме 41%3.
Полученная PWM доступна по ссылке.
Позитивные контроли имеют средний вес 5.25; отрицательные - 4.34. Тест Манна-Уитни показывает наличие статистически достоверной разницы (p-value=0.01). Значит, в точке начала трансляции действительно имеет место сигнал.
Матрица информационного содержания доступна по ссылке.
LOGO было построено с учётом содержания GC 41%.