Практикум 8. Сигналы и мотивы

Описание мотива в белках паттерном

Белок RL3 - важный белок большой субъединицы рибосомы бактерий.
Он является одним из двух белков-инициаторов сборки, он связывается непосредственно с 3'-концом 23S рРНК, где инициирует сборку субъединицы 50S.

Всего в файле bacteria-sw.fasta было 756 белков с такой мнемоникой.
Выбранные 10 белков: RL3, list.
Выравнивание белков: выравнивание.

Для составления паттерна я выбрал участок 122-135 включительно в выравнивании (для RL3_ECOLI это соответствует 111-124 аминокислотным остаткам).

Сам паттерн:

G[TVS][ST][TKIQV]G[KR]GF[AQT]G[GTAV][MIV]KR

Результат оставляет желать лучшего, всего 382 (~50%) белка найдено (ни одного ошибочного, все с мнемониками RL3), число ложноотрицательных результатов 374.

Изменим немного паттерн

Gx(3)G[KR]GF[AQT]Gx[MIV]KR

Результат еще лучше. 528 белков с правильной мнемоникой (ни одного ложнополодительного, 228 не нашлось), то есть уже нашлось 70% белков.

Изменим еще немного паттерн:

Gx(3)G[KR]GFxGx(2)KR

Нашлось 590 белков с верной мнемоникой (78%, не нашлось 166 белков, но ни одного ложноположительного результата).

Поиск мотивов в белках программой MEME и поиск этих мотивов в банке

Воспользуемся программой MEME для поиска мотивов.

Файл с белками rl3.fasta, комманда:

meme rl3.fasta -protein -mod oops -nmotifs 3 -minw 8 -maxw 15 -oc meme_res

Результат работы MEME: meme.html.

Были найдены 3 мотива в каждом из 10 белков, при этом с самым большим p-value (7.5e-057) примерно тот, который я использовал в первом пункте:)

Комманда для заупска MAST:

mast meme_res/meme.html /P/y24/term4/bacteria-sw.fasta

Результат работы MAST: mast.html.

Результаты прекарсные: 757 белков.
1 ложноположительный: LAN91_MICS0 с E-value 7.9 (то есть статистически незначимая находка).
Все остальные 756 из возможных 756 это RL3 (за исключением 11 белков, в каждом белке находилось по 3 мотива).

Поиск последовательности Шайна — Дальгарно в геноме Tetragenococcus koreensis

Псоледовательностью Шально-Дальгарно (SD) будем считать мотив AGGAGG.

C помощью fuzznuc было обнаружено следующее количество преполагаемых последовательностей SD:
на прямой цепи 452, на комплементарной 932. Всего 1384.

С помощью программы geecee из emboss посчитаем GC-состав: 37%.
То есть ожидаемое случайное количество: 2*2720974*0,3152*0,1854=632,5.
Наблюдаемое число более чем в 2 раза больше, чем ожидаемое.

Посмотрим, действительно ли обнаруженные последовательности являются последовательностями SD.
Я не писал код, но я сделал таблицу с локальными особенностями генома, включив туда найденные SD, и отсортировал по располодению.
Комманды: комманды, таблица с SD: таблица.

Действительно многие из находок располагаются в 8-15 нуклеотидах от точки старта транскрипции, но не все, есть те, которые рапсоложены случайно.