Практикум 8

Сигналы в геноме. Примеры и поиск сигналов с известными последовательностями

Поиск сигнала

Я решила выбрать poly(A) signal. Процессинг 3′-конца выбирает оптимальный сайт расщепления между сигналом поли(А) и U-богатым элементом ниже. Известно, что последовательность сигнала поли(А) и количество уридинов на 3′ конце влияют на эффективность расщепления. Сайт расщепления не следует строгому консенсусу, хотя динуклеотид CG функционирует менее эффективно, чем CA in vitro. Поэтому РНК F2*A и F2*G могут быть расщеплены в альтернативных позициях, что приводит к образованию 3′ UTR различной длины и состава, что может иметь вторичные последствия для стабильности РНК.

picture
Рис.1. Молекулярное расположение сигналов поли(А) на пре-мРНК и связанных с ними факторов расщепления и полиаденилирования

Источники

Genetic dangers in poly(A) signals Nicholas J. Proudfoot // EMBO Rep. 2001 Oct 15; 2(10): 891–892. // doi: 10.1093/embo-reports/kve207

Поиск последовательностей представитлей, построение PWM для последовательности Козак в геноме человека

Последовательность Козак представляет собой окрестность ATG кодона - старта транскрипции в геноме человека. В ходе задания был адаптирован скрипт ребят со страших курсов, выражаю им благодарность. На вход скрипту поадается последовательность генов человека genes.tsv. Скрипт выдает следующие fasta-файлы:

Файл со 100 последовательностями для обучения

Файл с 500 последовательностями для тестирования

Файл с 500 последовательностями для негативного контроля

Далее была построена позиционная весовая матрица PWM, она приведена ниже:

picture
Рис.2. Позиционная весовая матрица

Далее были посчитаны веса последовательностей и составлена гистограмма

picture
Рис.3. Гистограмма распределения весов последовательностей

На гистограмме можно заметить, что отрицательный контроль сдвинут влево по сравнению с остальными. Я решила выбрать в качестве верных последовательности, вес которых выше 37 (пороговый вес - 37). Потом была построена матрица результатов проверки:

Обучение + контроль - контроль
Сигнал(+) 359(71,8%) 363(72,6%) 115(23,0%)
Cигнал(-) 141(28,2%) 137(27,4%) 385(77,0%)

Далее получила матрицу информационного содержания (IC)

picture
Рис.4. Матрица информационного содержания (IC)

C помощью сервиса WebLOGO 3 было построено LOGO. На вход был подан файл с обучающей выборкой. На Рис.5 видно, что позиции 2, 5 -12 имеют значимый информационный вес. На основе этого мы можем считать, что выровненные последовательности обладают особой функцией

picture
Рис.5. LOGO для последовательности Козак