Практикум 8

1. Описание мотива в белках паттерном

Белок RS2 был выбран для моделирования поиска белков одного семейства по паттерну. RS2 — это белок S2 малой (30S) субъединицы бактериальной рибосомы (Small ribosomal subunit protein uS2). Участвует в сборке рибосомы и связывании мРНК.

В файле bacteria-sw.fasta 750 белков с такой мнемоникой. В UniProt были выбраны следующие белки: RS2_THET8, RS2_FRATN, RS2_NOCSJ, RS2_PROM3, RS2_BACAH, RS2_PARDP, RS2_CAMJJ, RS2_PELPD, RS2_STRPG, RS2_PROM5. Сделали выравнивание этих белков на kodomo с помощью muscle:

muscle -align uniprotkb_accession_A0Q4H1_OR_accession_2026_05_03.fasta -output rs1_aligned.fasta

Был получен файл с выравниванием.

В Jalview посмотрели выравнивание и отобрали консервативный участок без гэпов длиной 12 аминокислот (100-111).

Рис. 1. Консервативный участок (100-111) и его окрестность выравненных белков RS2 10 различных организмов.

По этому участку составили паттерн: R-W-L-G-G-[MT]-[LM]-T-N-[FYW]-x-T.

Запустили fuzzpro: fuzzpro -sequence /P/y24/term4/bacteria-sw.fasta -pattern "R-W-L-G-G-[MT]-[LM]-T-N-[FYW]-x-T" -outfile rs2_fuzzpro.

Была найдена 651 находка. Посмотрим сколько из них верных, т. е. относится к RS2:

grep "RS2" rs2_fuzzpro | wc -l

Получили 651, значит все относятся к RS2 (верные).

Получается 99 ложноотрицательных (ненайденные белки с данной мнемоникой).

2. Поиск мотивов в белках программой MEME и поиск этих мотивов в банке

Запустим программу MEME:

meme rs2_selected.fasta -protein -mod oops -minw 8 -maxw 15 -nmotifs 3 -oc meme_rs2

-protein - говорим что последовательности аминокислотные

-mod oops - один представитель мотива на последовательность (One Occurrence Per Sequence) - то есть мотив должен быть ровно в каждом белке

-minw 8 - минимальная длина мотива 8 аминокислот

-maxw 15 - максимальная длина мотива 15 аминокислот

-nmotifs 3 - найти до 3 разных мотивов

-oc meme_rs2 - папка куда сохранить результаты

Получили директорию meme_rs2 в ней файл meme.html

Программой было найдено три мотива из них все были найдены в 10 белках и имели низкий E-value, так что находки можно считать не случайными.

Теперь ищем мотивы в банке программой MAST:

mast meme_rs2/meme.html /P/y24/term4/bacteria-sw.fasta -oc mast_rs2

Полученный результат в формате html.

По результатам работы MAST:

Всего находок: 754

Верные (RS2): 750 из 750 — все нашлись!

Ложноположительные: 4 (не RS2)

Ложноотрицательные: 0 - ни одного RS2 не пропустили

Вывод: MAST нашёл все 750 белков RS2 без единого пропуска, и всего 4 ложноположительные находки. Это очень хороший результат по сравнению с fuzzpro - MAST благодаря PWM работает точнее и полнее.

3. Поиск последовательности Шайна — Дальгарно в геноме своего прокариота

Сначала - что такое последовательность Шайна-Дальгарно (ПШД): Это короткая последовательность в мРНК прокариот (~AGGAGG или её часть), которая находится за 5-10 нуклеотидов до старт-кодона и помогает рибосоме найти место начала трансляции.

В этом задании ПШД смотрели в геноме Thermococcus profundus, скачанный еще в 1 семестре. Запустили fuzznuc для прямой цепи:

fuzznuc -sequence term1/genome/GCF_002214585.1_ASM221458v1_genomic.fna -pattern "AGGAGG" -outfile sd_forward.txt

и комплементарной:

fuzznuc -sequence term1/genome/GCF_002214585.1_ASM221458v1_genomic.fna -pattern "AGGAGG" -complement -outfile sd_reverse.txt

Прямая цепь: 2052 находки

Комплементарная цепь: 3967 − 2052 = 1915 находок

Всего: 3967

Частоты нуклеотидов в геноме Thermococcus profundus (длина: 2043143): G = C = 26.63%, A = T = 23.37%. P(AGGAGG) = P(A) × P(G) × P(G) × P(A) × P(G) × P(G) = 0.2337 × 0.2663 × 0.2663 × 0.2337 × 0.2663 × 0.2663 = 0.000275. Ищем на обеих цепях 2 × 2043143 = 4086286. Ожидаемое число = 4086286 × 0.000275 ≈ 1124.

Воспользуемся Z-критерием. Формула: z = (наблюдаемое − ожидаемое) / стандартное отклонение. Для распределения Пуассона стандартное отклонение = √λ = √ожидаемого. Если z > 1.96 — отличие статистически значимо (порог 5%).

При λ = 1124 и наблюдаемом числе сайтов k = 3967 z-критерий составляет: z ≈ (3967 − 1124) / 33.5 ≈ 84.9. Поскольку z >> 1.96 (при стандартном пороге α = 0.05), наблюдаемое число сайтов значимо превышает случайное ожидание. Мы отвергаем нулевую гипотезу о случайном распределении: последовательность AGGAGG встречается в геноме значительно чаще, чем ожидалось бы при случайном распределении нуклеотидов, что подтверждает её функциональную роль как сигнала Шайна-Дальгарно.

Из 15 случайно просмотренных находок одна (позиция 11642-11647) располагалась в правильной позиции относительно старт-кодона: ближайший ген начинается на позиции 11655, что составляет 8 нуклеотидов после конца найденной последовательности. Это попадает в типичный диапазон 5-10 нуклеотидов для последовательности Шайна-Дальгарно. Большинство находок не соответствовали правильной позиции, что может объясняться тем, что Thermococcus profundus является археей, у которой механизм инициации трансляции для некоторых белков может отличаться от классического бактериального.