Поиск сигнала
Я решила выбрать poly(A) signal. Процессинг 3′-конца выбирает оптимальный сайт расщепления между сигналом поли(А) и U-богатым элементом ниже. Известно, что последовательность сигнала поли(А) и количество уридинов на 3′ конце влияют на эффективность расщепления. Сайт расщепления не следует строгому консенсусу, хотя динуклеотид CG функционирует менее эффективно, чем CA in vitro. Поэтому РНК F2*A и F2*G могут быть расщеплены в альтернативных позициях, что приводит к образованию 3′ UTR различной длины и состава, что может иметь вторичные последствия для стабильности РНК.
Источники
Genetic dangers in poly(A) signals Nicholas J. Proudfoot // EMBO Rep. 2001 Oct 15; 2(10): 891–892. // doi: 10.1093/embo-reports/kve207
Поиск последовательностей представитлей, построение PWM для последовательности Козак в геноме человека
Последовательность Козак представляет собой окрестность ATG кодона - старта транскрипции в геноме человека. В ходе задания был адаптирован скрипт ребят со страших курсов, выражаю им благодарность. На вход скрипту поадается последовательность генов человека genes.tsv. Скрипт выдает следующие fasta-файлы:
Файл со 100 последовательностями для обучения
Файл с 500 последовательностями для тестирования
Файл с 500 последовательностями для негативного контроля
Далее была построена позиционная весовая матрица PWM, она приведена ниже:
Далее были посчитаны веса последовательностей и составлена гистограмма
На гистограмме можно заметить, что отрицательный контроль сдвинут влево по сравнению с остальными. Я решила выбрать в качестве верных последовательности, вес которых выше 37 (пороговый вес - 37). Потом была построена матрица результатов проверки:
Обучение | + контроль | - контроль | |
Сигнал(+) | 359(71,8%) | 363(72,6%) | 115(23,0%) |
Cигнал(-) | 141(28,2%) | 137(27,4%) | 385(77,0%) |
Далее получила матрицу информационного содержания (IC)
C помощью сервиса WebLOGO 3 было построено LOGO. На вход был подан файл с обучающей выборкой. На Рис.5 видно, что позиции 2, 5 -12 имеют значимый информационный вес. На основе этого мы можем считать, что выровненные последовательности обладают особой функцией