Белок RL3 - важный белок большой субъединицы рибосомы бактерий.
Он является одним из двух белков-инициаторов сборки, он связывается непосредственно с 3'-концом 23S рРНК, где инициирует сборку субъединицы 50S.
Всего в файле bacteria-sw.fasta было 756 белков с такой мнемоникой.
Выбранные 10 белков: RL3, list.
Выравнивание белков: выравнивание.
Для составления паттерна я выбрал участок 122-135 включительно в выравнивании (для RL3_ECOLI это соответствует 111-124 аминокислотным остаткам).
Сам паттерн:
Результат оставляет желать лучшего, всего 382 (~50%) белка найдено (ни одного ошибочного, все с мнемониками RL3), число ложноотрицательных результатов 374.
Изменим немного паттерн
Результат еще лучше. 528 белков с правильной мнемоникой (ни одного ложнополодительного, 228 не нашлось), то есть уже нашлось 70% белков.
Изменим еще немного паттерн:
Нашлось 590 белков с верной мнемоникой (78%, не нашлось 166 белков, но ни одного ложноположительного результата).
Воспользуемся программой MEME для поиска мотивов.
Файл с белками rl3.fasta, комманда:
Результат работы MEME: meme.html.
Были найдены 3 мотива в каждом из 10 белков, при этом с самым большим p-value (7.5e-057) примерно тот, который я использовал в первом пункте:)
Комманда для заупска MAST:
Результат работы MAST: mast.html.
Результаты прекарсные: 757 белков.
1 ложноположительный: LAN91_MICS0 с E-value 7.9 (то есть статистически незначимая находка).
Все остальные 756 из возможных 756 это RL3 (за исключением 11 белков, в каждом белке находилось по 3 мотива).
Псоледовательностью Шально-Дальгарно (SD) будем считать мотив AGGAGG.
C помощью fuzznuc было обнаружено следующее количество преполагаемых последовательностей SD:
на прямой цепи 452, на комплементарной 932. Всего 1384.
С помощью программы geecee из emboss посчитаем GC-состав: 37%.
То есть ожидаемое случайное количество: 2*2720974*0,3152*0,1854=632,5.
Наблюдаемое число более чем в 2 раза больше, чем ожидаемое.
Посмотрим, действительно ли обнаруженные последовательности являются последовательностями SD.
Я не писал код, но я сделал таблицу с локальными особенностями генома, включив туда найденные SD, и отсортировал по располодению.
Комманды: комманды, таблица с SD: таблица.
Действительно многие из находок располагаются в 8-15 нуклеотидах от точки старта транскрипции, но не все, есть те, которые рапсоложены случайно.