практикум №9

UV, MEME, FIMO

Факторы транскрипции. Поиск de novo сигналов в ДНК.


Данный практикум посвящен поиску сигнальной последовательности бактерии Photobacterium ganghwense, с мини-обзором генома и протеома которой можно ознакомиться по ссылке. Интерес представляет сайт посадки рибосомы на мРНК - последовательность Шайна-Дальгарно, играющая критическую роль в инициации трансляции прокариот.

Поиск проводится по нуклеотидной последовательности генома бактерии с учетом аннотаций. Геном Photobacterium ganghwense состоит из двух хромосом и одной плазмиды. Поскольку задание сформулировано как «challenge» и не требует поиска всех сигналов в геноме, ограничимся исследованием первой хромосомы и, соответственно, ее аннотациями в формате gff3. Аннотации и нуклеотидную последовательность хромосомы принимает на вход скрипт, написанный Вячеславом Масленниковым (UV), которым он разрешил воспользоваться. Этот код работает с промоторными областями, а именно извлекает и классифицирует последовательности ДНК вокруг старт-кодонов, формируя три группы последовательностей:

Стоит отметить, что данный код учитывает ориентацию цепи, а также быстро работает. Полученные файлы доступны в их описании выше.

MEME

Для поиска мотива, похожего на последовательность Шайна-Дальгарно, воспользуемся алгоритмом MEME, основанном на многократном применении метода максимального правдоподобия. Поиск мотива будем проводить среди последовательностей тренировочной группы.

meme TRAIN.fasta -dna -nmotifs 1 -minw 5 -maxw 10

Входные параметры MEME позволяют ввести ограничения на искомый сигнал. В данном случае -dna обозначает использование буквенного обозначения, характерного для ДНК, -nmotifs число мотивов, которое необходимо выводить в результате работы программы, -minw и -maxw задают минимальную и максимальную длину мотива соответственно.

С выдачей программы можно ознакомиться на странице и в тексте. Найденный мотив является статистически значимым (E-value 1.1e-009), на рис.1 приведено его LOGO (программа также выдает LOGO последовательности, комплементарной найденному мотиву).

Рис. 1
Рис. 1. Найденный в тренировочной группе алгоритмом MEME мотив, похожий на последовательность Шайна-Дальгарно (E-value 1.1e-009).

Паттерн найденного мотива: WWHAGGAGW*. Консенсусной последовательностью Шайна-Дальгарно считается AGGAGG. У найденного мотива имеются сходства на участке 4-8 (AGGAG). Различие в длине может быть обусловлено составом тренировочной группы. Интересно, что из исходных 228 коротких участков мотив был найден только в 60 последовательностях. С другой стороны, по литературным данным, in silico-прогнозирование показает, что, например, в E. coli большинство пар оснований SD:aSD составляют всего 4–5 пар оснований. Примем полученный мотив за подлинный сигнал и попробуем отыскать его в контрольных группах.

* я, честно говоря, не поняла, где в выдаче MEME найти консенсус, нашла только паттерн. Вероятно, в данном случае, у рассматриваемых последовательностей нет осмысленного консенсуса той же длины, что и паттерн, но есть похожий на консервативный участок (4-8), где определенные нуклеотиды встречаются чаще.
UPD: В выдаче FIMO консенсусной последовательностью (BEST POSSIBLE MATCH) явяляется ATCAGGAGT.

FIMO

Для поиска известных мотивов в последовательностях используется программа FIMO, которая сканирует набор последовательностей на предмет отдельных совпадений с мотивом. Данная программа была запущена для группы положительного контроля

fimo --oc fimo_pos -thresh 0.001 meme_out/meme.txt POSITIVE.fasta
и для группы отрицательного контроля
fimo --oc fimo_neg -thresh 0.001 meme_out/meme.txt NEGATIVE.fasta

Параметр -thresh 0.001 отбирает значимые находки, p-value которых меньше 0.001.

С выдачей программы для положительного контроля можно ознакомиться на этой странице, а для отрицательного - на другой странице. В группе положительного контроля было найдено 400 значимых находок, а в группе отрицательного контроля всего 36. Поскольку во второй группе находок значительно меньше, то вполне вероятным является то, что предсказанный мотив AGGAG (ATCAGGAGT) есть консенсус последовательности Шайно-Дальгарно для исследуемой бактерии.