Отчёт по практической работе №8

Поиск гомологичных белков по паттерну

Для анализа были выбраны белки с мнемоникой SRP54 - Signal recognition particle 54 kDa protein. Это белки, распознающие гидрофобный сигнальный мотив в последовательности различных белков. Когда при синтезе белка этот мотив выходит из рибосомы, SRP54 связывает его. Образовавшийся комплекс направляется к цитоплазматической мембранне и с помощью FtsY и Sec белок с распознаваемым мотивом встраивается в мембрану.

Файл, по которому проводился поиск, содержал 27 записей с данной мнемоникой.

Для поиска консервативного участка, по которому можно было бы искать белки с такой же функцией, были выбраны 10 последовательностей из Swiss-Prot: SRP54_ECOLI (E. coli), SRP54_THEAQ (Thermus aquaticus), SRP54_MYCLE (Mycobacterium leprae), SRP54_AQUAE (Aquifex aeolicus), SRP54_BACSU (Bacillus subtilis), SRP54_MYCPN (Mycoplasma pneumoniae), SRP54_MYCTO (Mycobacterium tuberculosis), SRP54_RICBR (Rickettsia bellii), SRP54_BUCAP (Buchnera aphidicola), SRP54_METMA (Methanosarcina mazei). Данные последовательности были выровнены с помощью программы MAFFT. С построенным выравниванием можно ознакомиться здесь. Паттерн был построен по позициям выравнивания, соответствующим 107-120 позициям последовательности SRP54_ECOLI (см. рис. 1). Полученный паттерн:
G-L-Q-G-[ASTV]-G-K-T-T-[STLA]-[VAISCL]-[GAV]-K-[LI]

Рис. 1 Для построения паттерна были выбраны позиции 111-124 выравнивания. Колонки 115 и 120-122 вариативны

Для поиска по построенному паттерну среди бактериальных белков из Swiss-prot использовалась программа fuzzpro:

fuzzpro -sequence "/P/y24/term4/bacteria-sw.fasta" -pattern "G-L-Q-G-[ASTV]-G-K-T-T-[STLA]-[VAISCL]-[GAV]-K-[LI]" -outfile "srp_report.fuzzpro"

В итоге по данному паттерну было найдено 16 белков, все с мнемоникой SRP54. Это означает, что наш паттерн слишком строг. Скорее всего это связано с тем, что в 10 выбранных последовательностях не представлены все варианты аминокислот, которые могут находиться в неконсервативных позициях мотива. Для ослабления паттерна обозначим вариативные позиции как "x" (то есть разрешим в этих участках появляться любым аминокислотам):

fuzzpro -sequence "/P/y24/term4/bacteria-sw.fasta" -pattern "G-L-Q-G-x-G-K-T-T-x-x-x-K-x" -outfile "srp_report.fuzzpro"

С этим паттерном удалось найти 27 последовательностей, все они - с мнемоникой SRP54. Это все последовательности с данной мнемоникой, присутствующие в референсном файле. Таким образом, можно сделать вывод, что участок, выбранный для построения паттерна, специфичен для бактериальных белков SRP54 и, вероятно, важен для выполнения белком его функций, т.к. консервативен у всех белков SRP54, последовательности которых присутствуют в Swiss-Prot.

Поиск белковых мотивов с помощью MEME. Поиск белков, содержащих данные мотивы с помощью MAST

Последовательности, с которым велась работа ранее, были переданы на вход программе MEME. Программа была запущена со следующими параметрами:

meme srp54.fasta -protein -mod oops -nmotifs 3 -minw 8 -maxw 15

-protein - прочитать последовательности как белковые

-mod oops - распределение мотива в последовательности (1 на последовательность)

-nmotifs - максимальное число найденных мотивов

-minw, -maxw - минимальная и максимальная длины мотивов

Результат работы программы

В результате в каждой из последовательностей было обнаружено по 3 мотива, каждый длиной 15 аминокислотных остатков (см. рис. 2). Первый из них использовался ранее использовался для поиска с помощью fuzzpro.

Рис. 2 Мотивы, найденные с помощью MEME. Здесь E-value - матожидание числа находок мотивов с таким же или большим информационным содержанием в таком же числе последовательностей таких же длин

Результат работы MEME был передан программе MAST для поиска белков, содержащих найденные мотивы среди последовательностей белков из Swiss-Prot.

mast meme_out/meme.html /P/y24/term4/bacteria-sw.fasta

Результат работы программы

В результате среди бактерианых белков из Swiss-Prot было найдено 300 последовательностей, содержащих данные мотивы, каждая c E-value меньше 10. На мой взгляд, такое значение E-value слишком велико (используемая "база данных" не велика), поэтому далее будут описываться находки с E-value < 0.001. Таких здесь 69. Из них мнемонику SRP54 имеют 27 последовательностей, то есть были обнаружены все белки с данной мнемоникой. Также встречаются находки с мнемоникой FTSY, FLHF и KTHY.

FTSY - белки, относящиеся к семейству SRP. Эти белки распознают комплекс SRP54 и связанной им пептидной цепи и осуществляют её передачу Sec-транслоказе для встраивания таргетного белка в мембрану. В последовательностях этих белков были найдены первый и второй мотивы (см. рис. 2). Достоверное нахождение одинаковых мотивов у SRP54 и FTSY свидетельствует о их родстве.

FLHF - белки, участвующие в синтезе жгутика. В их последовательностях также были найдены мотивы 1 и 2.

KTHY - тимидилат киназа. Хороший E-value имеет лишь одна найденная последовательность. В ней обнаружено все 3 мотива (однако 3 мотив имеет относительно высокий p-value (>0.00001)(то есть сигнал слабый)).

Таким образом, по построенным мотивам были найдены не только все белки SRP54 из банка, но и их родственники - FTSY, содержащие в последовательности такие же мотивы. Интересно, что если пройтись по оставшимся последовательностям (с E-value > 0.001), то можно понять, что большинство из них содержат лишь первый мотив, при этом большая часть из них локализованы в цитоплазматической мембране или функционируют рядом с ней. Так, можно предположить, что первый мотив является сигналом для транспорта белка к мембране (но не мембранной локализации, т.к. SRP54 его содержит, но не встраивается в мембрану, а лишь транспортируется к ней.)

Поиск последовательности Шайна — Дальгарно в геноме Halobaculum salinum

Последовательность Шайна — Дальгарно - сайт на молекулах мРНК прокариот, необходимый для позиционирования рибосомы относительно старт-кодона (комплементарен участку 16S рРНК). Её консенсус - AGGAGG, по нему и проведём поиск:

fuzznuc -sequence "~/term1/genome/GCF_013402875.1_ASM1340287v1_genomic.fna" -pattern "A-G-G-A-G-G" -complement -outfile "sd_cmpl.fuzznuc"

-complement - для поиска и по прямой, и по комплементарной цепи.

Результат работы программы

В результате поиска на прямой цепи хромосомы было найдено 2898 сайтов, совпадающих по последовательности с консенсусом для SD, а на обратной - 2901 (всего 5799).

Частоты нуклеотидов в геноме Halobaculum salinum (длина: 4019272): A: 0.1575, G: 0.3418, C: 0.3431, T: 0.1576. Можно рассчитать предположительное число случайных мотивов AGGAGG в геноме: 0.1575 * 0.3418 * 0.3418 * 0.1575 * 0.3418 * 0.3418 * 4019272 = 1361, что более чем в два раза меньше числа обнаруженных AGGAGG. Консенсусу на комплементарной цепи отвечает последовательность CCTCCT на положительной, так что ожидаемое число случайных AGGAGG на комплементарной цепи примерно равно 1384, что также примерно в два раза меньше числа обнаруженных мотивов. Это подкрепляет предположение о специфичности данного мотива и наличии у него специальных функций.

Анализ обнаруженных сайтов показал, что из 2898 участков на прямой цепи лишь 31 (около 1%) находятся на правильном расстоянии (старт на -21 - -7 позиции относительно старткодона) от CDS и, скорее всего, действительно выполняют роль последовательности SD. На обратной цепи корректными мотивами SD можно считать 28 из 2901 найденных. Это связано с тем, что у архей последовательность Шайна-Дальгарно крайне не консервативна и не является обязательной для нормального функционирования гена. Строгий консенсус, который был задан нами, не подходит для поиска SD у архей. Таким образом, все же большая часть из найденных мотивов либо являются случайными находками, либо выполняют другую функцию.

Скрипты, использованные для выполнения задания