Для анализа были выбраны белки с мнемоникой SRP54 - Signal recognition particle 54 kDa protein. Это белки, распознающие гидрофобный сигнальный мотив в последовательности различных белков. Когда при синтезе белка этот мотив выходит из рибосомы, SRP54 связывает его. Образовавшийся комплекс направляется к цитоплазматической мембранне и с помощью FtsY и Sec белок с распознаваемым мотивом встраивается в мембрану.
Файл, по которому проводился поиск, содержал 27 записей с данной мнемоникой.
Для поиска консервативного участка, по которому можно было бы искать белки с такой же функцией, были выбраны 10 последовательностей из Swiss-Prot: SRP54_ECOLI (E. coli), SRP54_THEAQ (Thermus aquaticus), SRP54_MYCLE (Mycobacterium leprae), SRP54_AQUAE (Aquifex aeolicus), SRP54_BACSU (Bacillus subtilis), SRP54_MYCPN (Mycoplasma pneumoniae), SRP54_MYCTO (Mycobacterium tuberculosis), SRP54_RICBR (Rickettsia bellii), SRP54_BUCAP (Buchnera aphidicola), SRP54_METMA (Methanosarcina mazei). Данные последовательности были выровнены с помощью программы MAFFT. С построенным выравниванием можно ознакомиться здесь. Паттерн был построен по позициям выравнивания, соответствующим 107-120 позициям последовательности SRP54_ECOLI (см. рис. 1). Полученный паттерн:
G-L-Q-G-[ASTV]-G-K-T-T-[STLA]-[VAISCL]-[GAV]-K-[LI]
Для поиска по построенному паттерну среди бактериальных белков из Swiss-prot использовалась программа fuzzpro:
В итоге по данному паттерну было найдено 16 белков, все с мнемоникой SRP54. Это означает, что наш паттерн слишком строг. Скорее всего это связано с тем, что в 10 выбранных последовательностях не представлены все варианты аминокислот, которые могут находиться в неконсервативных позициях мотива. Для ослабления паттерна обозначим вариативные позиции как "x" (то есть разрешим в этих участках появляться любым аминокислотам):
С этим паттерном удалось найти 27 последовательностей, все они - с мнемоникой SRP54. Это все последовательности с данной мнемоникой, присутствующие в референсном файле. Таким образом, можно сделать вывод, что участок, выбранный для построения паттерна, специфичен для бактериальных белков SRP54 и, вероятно, важен для выполнения белком его функций, т.к. консервативен у всех белков SRP54, последовательности которых присутствуют в Swiss-Prot.
Последовательности, с которым велась работа ранее, были переданы на вход программе MEME. Программа была запущена со следующими параметрами:
-protein - прочитать последовательности как белковые
-mod oops - распределение мотива в последовательности (1 на последовательность)
-nmotifs - максимальное число найденных мотивов
-minw, -maxw - минимальная и максимальная длины мотивов
В результате в каждой из последовательностей было обнаружено по 3 мотива, каждый длиной 15 аминокислотных остатков (см. рис. 2). Первый из них использовался ранее использовался для поиска с помощью fuzzpro.
Результат работы MEME был передан программе MAST для поиска белков, содержащих найденные мотивы среди последовательностей белков из Swiss-Prot.
В результате среди бактерианых белков из Swiss-Prot было найдено 300 последовательностей, содержащих данные мотивы, каждая c E-value меньше 10. На мой взгляд, такое значение E-value слишком велико (используемая "база данных" не велика), поэтому далее будут описываться находки с E-value < 0.001. Таких здесь 69. Из них мнемонику SRP54 имеют 27 последовательностей, то есть были обнаружены все белки с данной мнемоникой. Также встречаются находки с мнемоникой FTSY, FLHF и KTHY.
FTSY - белки, относящиеся к семейству SRP. Эти белки распознают комплекс SRP54 и связанной им пептидной цепи и осуществляют её передачу Sec-транслоказе для встраивания таргетного белка в мембрану. В последовательностях этих белков были найдены первый и второй мотивы (см. рис. 2). Достоверное нахождение одинаковых мотивов у SRP54 и FTSY свидетельствует о их родстве.
FLHF - белки, участвующие в синтезе жгутика. В их последовательностях также были найдены мотивы 1 и 2.
KTHY - тимидилат киназа. Хороший E-value имеет лишь одна найденная последовательность. В ней обнаружено все 3 мотива (однако 3 мотив имеет относительно высокий p-value (>0.00001)(то есть сигнал слабый)).
Таким образом, по построенным мотивам были найдены не только все белки SRP54 из банка, но и их родственники - FTSY, содержащие в последовательности такие же мотивы. Интересно, что если пройтись по оставшимся последовательностям (с E-value > 0.001), то можно понять, что большинство из них содержат лишь первый мотив, при этом большая часть из них локализованы в цитоплазматической мембране или функционируют рядом с ней. Так, можно предположить, что первый мотив является сигналом для транспорта белка к мембране (но не мембранной локализации, т.к. SRP54 его содержит, но не встраивается в мембрану, а лишь транспортируется к ней.)
Последовательность Шайна — Дальгарно - сайт на молекулах мРНК прокариот, необходимый для позиционирования рибосомы относительно старт-кодона (комплементарен участку 16S рРНК). Её консенсус - AGGAGG, по нему и проведём поиск:
-complement - для поиска и по прямой, и по комплементарной цепи.
В результате поиска на прямой цепи хромосомы было найдено 2898 сайтов, совпадающих по последовательности с консенсусом для SD, а на обратной - 2901 (всего 5799).
Частоты нуклеотидов в геноме Halobaculum salinum (длина: 4019272): A: 0.1575, G: 0.3418, C: 0.3431, T: 0.1576. Можно рассчитать предположительное число случайных мотивов AGGAGG в геноме: 0.1575 * 0.3418 * 0.3418 * 0.1575 * 0.3418 * 0.3418 * 4019272 = 1361, что более чем в два раза меньше числа обнаруженных AGGAGG. Консенсусу на комплементарной цепи отвечает последовательность CCTCCT на положительной, так что ожидаемое число случайных AGGAGG на комплементарной цепи примерно равно 1384, что также примерно в два раза меньше числа обнаруженных мотивов. Это подкрепляет предположение о специфичности данного мотива и наличии у него специальных функций.
Анализ обнаруженных сайтов показал, что из 2898 участков на прямой цепи лишь 31 (около 1%) находятся на правильном расстоянии (старт на -21 - -7 позиции относительно старткодона) от CDS и, скорее всего, действительно выполняют роль последовательности SD. На обратной цепи корректными мотивами SD можно считать 28 из 2901 найденных. Это связано с тем, что у архей последовательность Шайна-Дальгарно крайне не консервативна и не является обязательной для нормального функционирования гена. Строгий консенсус, который был задан нами, не подходит для поиска SD у архей. Таким образом, все же большая часть из найденных мотивов либо являются случайными находками, либо выполняют другую функцию.