Практикум №8. Сигналы и мотивы

1. Описание мотива в белках паттерном

Для выполнения практикума был выбран белок RL1 - один из основных белков, связывающихся с рРНК. Белок L1 также является белком-репрессором трансляции. Он контролирует трансляцию оперона L11, связываясь с его мРНК.

В папке /P/y24/term4 лежит файл bacteria-sw.fast с последовательностями всех белков бактерий. Всего белков RL1 в базе 792.

Далее мы отобрали 8 ID вида: RL1_*, где *: STRGR, MYCGE, THETH, SERMA, PROM3, HELPY, ECOLI, HAEIN; и собрали их последовательность в один общий файл

Затем в программе Jalview было проведено выравнивание с поомщью Muscle. Самая большая консервативность наблюдается в участке 133-143 а.о. (рис.1), и по нему был составлен паттерн: [LS]-G-[PT]-[RK]-G-L-[ML]-P-N-P-K

**Рис.1** *Консерватинвый участок выравнивания.*

По полученному паттерну был осуществлен поиск программой fuzzpro среди всех белков бактерий из Swiss-Prot:

fuzzpro -sequence /P/y24/term4/bacteria-sw.fasta -pattern '[LS]-G-[PT]-[RK]-G-L-[ML]-P-N-P-K' -outfile r1.txt

На выдаче получили файл, в котором указано, что всего находок обнаружилось 597. Для подсчета "верных" мы использовали команду:

grep -c "RL1_" r1.txt

Получилось то же число - 597, то есть все находки fuzzpro это белки RL1 и ложноположительных находок нет. Поскольку всего в базе содержится 792 белка RL1, а нахаодок получилось 597, значит 195 белков RL1 не содержат этот паттерн, возможно это связано с тем, что у части белков в этом месте есть замена аминокислот или произошли какие нибдуь вставки/делеции, нарущающие длину участка.

Попробуем ослабить паттерн, чтобы найти больше находок. Заменим некоторые позиции, которые не полностью совпадают во всех последовательностях, на Х. Получим: x-G-x-[RK]-G-L-[ML]-P-N-P-K.

В результате у нас получилось тоже 611 находок, видимо сочетние остальных позиций уникально для RL1. Попробуем наоборот усилить паттерн, добавив пару позиций справа и слева: [RQK]-[VIL]-[LS]-G-[PT]-[RK]-G-L-[ML]-P-N-P-K-[VTA] - получили 451 белок, причем все их них также RL1. Усиление привело к потере 161 найденного ранее белка (по сравнению с ослабленным вариантом)

2. Поиск мотивов в белках программой MEME и поиск этих мотивов в банке

MEME

Для выполнения этой части практикума мы нашли мотивы программой МЕМЕ для тех же белков, которые выбрали в п.1. Команда:

meme allRL1.fasta -protein -mod oops -nmotifs 3 -minw 8 -maxw 15 -o meme_output

Результаты представлены в файле meme_html

MEME выявил три консервативных мотива длиной 15 аминокислот. Все три мотива имеют очень низкие e-value, что говорит о высокой статистической значимости, а site = 8 означает, что полученные мотивы были найдены во всех 8 последовательностях, что также подтверждает консерватиность участка.

**Рис.2** *Мотивы, найденные программой МЕМЕ.*

Наиболее значимым является мотив 1 с E-value = 1.3e-049. Его консенсусная последовательность покрывает участок, который мы выбирали в п.1., может быть этот участок - уникальная последовательность именно для этого семейства белков, поэтому при изменении паттерна (ослаблении/усилении) мы все равно находили только RL1.

MAST

Далее программой MAST нашли в файле bacteria-sw.fasta найденные мотивы. Использованная команда:

mast meme_output/meme.html /P/y24/term4/bacteria-sw.fasta -o mast_output

Получили такую же выдачу в формате странички html.

MAST нашел 801 последовательность, и 787 из них оказались белками семейства RL1, то есть ложноположительных находок здесь получилось 14. По сравнению с fuzzpro, MAST показал значительно более высокую чувствительность и нашел больше белков, но зато появилось небольшое число ложноположительных находок, которых в fuzzpro не было.

Поиск последовательности Шайна — Дальгарно в геноме Actinomyces faecalis

Последовательность Шайна-Дальгарно - это короткий консервативный участок в мРНК прокариот, который узнаётся рибосомой. Классический консенсус — AGGAGG. Он расположен на расстоянии 5-10 нуклеотидов перед AUG-старт-кодоном. Сайт необходим для правильной инициации трансляции.

В первом семестре мы делали работу с геномом прокариота Actinomyces faecalis.

Для начала помощью программы fuzznuc был проведён поиск паттерна AGGAGG во всей последовательности генома (на обеих цепях). Команда для запуска:

fuzznuc -sequence GCF_013184985.2_ASM1318498v2_genomic.fna -pattern AGGAGG -outfile outtt.txt

В результате поиска было обнаружено 2301 вхождение паттерна. Общее количество аннотированных белок-кодирующих последовательностей (CDS) в геноме составляет 2248.

Чтобы оценить является ли данная последовательность значимой или появляется случайно, было расчитано ожидаемое число ее вхождений при случайном распределении нуклеотидов. Сначала мы вычислили частоты встречаемости азотистых оснований:

p(A) = 0.1562
p(T) = 0.1576
p(G) = 0.3437
p(C) = 0.3422
GC% = 68.60%

Вероятность встретить паттерн AGGAGG на одной цепи можно вычислить по формуле:
p(AGGAGG) = p(A)² × p(G)⁴ = (0.1562)² × (0.3437)⁴ = 0.02440 × 0.01395 = 0.000340.

С помощью представленной ниже команды мы нашли длину генома, а затем определили N (ожидаемое число сайтов AGGAGG):

grep -v "^>" genome.fna | tr -d '\n' | wc -c

N_{ожидаемое} = 2701426 × 0.000340 × 2 = 1837.

Реальное количество находок (2301) превышает ожидаемое в 1.25 раза. Для оценки статистической значимости этого различия был рассчитан критерий χ²:

χ² = (2301 − 1837)² / 1837 = 117.2.

Полученное значение χ² значительно превышает критическое значение (10.83), следовательно, такое различие не может быть случайным.

Как итог, можно написать, что последовательность AGGAGG встречается в геноме Actinomyces faecalis достоверно чаще, чем ожидалось бы при случайном распределении, значит она не является случайной и представляет собой эволюционно консервативный функциональный мотив.

CDS

Функционально значимая ПШД должна находиться на расстоянии 5–15 нуклеотидов перед старт-кодоном (ATG). Чтобы это проверить, из общего списка находок были случайным образом отобраны ~15 сайтов, содержащих паттерн AGGAGG. С использованием геномной таблицы для каждого сайта проверялось наличие старт-кодона на расстоянии 5–15 п.н. после него на той же цепи.

В результате из 15 случайных сайтов 4 располагались на нужном расстоянии, остальные сайты (~74%) находились либо внутри генов, либо далеко от старт-кодонов.

Таким образом, AGGAGG реально встречается в геноме чаще, чем просто случайность. И даже если сайт обнаруживается, то только при особых условиях он будет работать как сигнал для рибосомы, в противном случае эта последовательность не будет никак отрицательно влиять на работу.