Данный практикум посвящен поиску сигнальной последовательности бактерии Photobacterium ganghwense, с мини-обзором генома и протеома которой можно ознакомиться по ссылке. Интерес представляет сайт посадки рибосомы на мРНК - последовательность Шайна-Дальгарно, играющая критическую роль в инициации трансляции прокариот.
Поиск проводится по нуклеотидной последовательности генома бактерии с учетом аннотаций. Геном Photobacterium ganghwense состоит из двух хромосом и одной плазмиды. Поскольку задание сформулировано как «challenge» и не требует поиска всех сигналов в геноме, ограничимся исследованием первой хромосомы и, соответственно, ее аннотациями в формате gff3. Аннотации и нуклеотидную последовательность хромосомы принимает на вход скрипт, написанный Вячеславом Масленниковым (UV), которым он разрешил воспользоваться. Этот код работает с промоторными областями, а именно извлекает и классифицирует последовательности ДНК вокруг старт-кодонов, формируя три группы последовательностей:
Стоит отметить, что данный код учитывает ориентацию цепи, а также быстро работает. Полученные файлы доступны в их описании выше.
Для поиска мотива, похожего на последовательность Шайна-Дальгарно, воспользуемся алгоритмом MEME, основанном на многократном применении метода максимального правдоподобия. Поиск мотива будем проводить среди последовательностей тренировочной группы.
meme TRAIN.fasta -dna -nmotifs 1 -minw 5 -maxw 10
Входные параметры MEME позволяют ввести ограничения на искомый сигнал. В данном случае -dna обозначает использование буквенного обозначения, характерного для ДНК, -nmotifs число мотивов, которое необходимо выводить в результате работы программы, -minw и -maxw задают минимальную и максимальную длину мотива соответственно.
С выдачей программы можно ознакомиться на странице и в тексте. Найденный мотив является статистически значимым (E-value 1.1e-009), на рис.1 приведено его LOGO (программа также выдает LOGO последовательности, комплементарной найденному мотиву).
Паттерн найденного мотива: WWHAGGAGW*. Консенсусной последовательностью Шайна-Дальгарно считается AGGAGG. У найденного мотива имеются сходства на участке 4-8 (AGGAG). Различие в длине может быть обусловлено составом тренировочной группы. Интересно, что из исходных 228 коротких участков мотив был найден только в 60 последовательностях. С другой стороны, по литературным данным, in silico-прогнозирование показает, что, например, в E. coli большинство пар оснований SD:aSD составляют всего 4–5 пар оснований. Примем полученный мотив за подлинный сигнал и попробуем отыскать его в контрольных группах.
* я, честно говоря, не поняла, где в выдаче MEME найти консенсус, нашла только паттерн. Вероятно, в данном случае, у рассматриваемых последовательностей нет осмысленного консенсуса той же
длины, что и паттерн, но есть похожий на консервативный участок (4-8), где определенные нуклеотиды встречаются чаще.
UPD: В выдаче FIMO консенсусной последовательностью (BEST POSSIBLE MATCH) явяляется ATCAGGAGT.
Для поиска известных мотивов в последовательностях используется программа FIMO, которая сканирует набор последовательностей на предмет отдельных совпадений с мотивом. Данная программа была запущена для группы положительного контроля
fimo --oc fimo_pos -thresh 0.001 meme_out/meme.txt POSITIVE.fasta
и для группы отрицательного контроля
fimo --oc fimo_neg -thresh 0.001 meme_out/meme.txt NEGATIVE.fasta
Параметр -thresh 0.001 отбирает значимые находки, p-value которых меньше 0.001.
С выдачей программы для положительного контроля можно ознакомиться на этой странице, а для отрицательного - на другой странице. В группе положительного контроля было найдено 400 значимых находок, а в группе отрицательного контроля всего 36. Поскольку во второй группе находок значительно меньше, то вполне вероятным является то, что предсказанный мотив AGGAG (ATCAGGAGT) есть консенсус последовательности Шайно-Дальгарно для исследуемой бактерии.