Белок RS2 был выбран для моделирования поиска белков одного семейства по паттерну. RS2 — это белок S2 малой (30S) субъединицы бактериальной рибосомы (Small ribosomal subunit protein uS2). Участвует в сборке рибосомы и связывании мРНК.
В файле bacteria-sw.fasta 750 белков с такой мнемоникой. В UniProt были выбраны следующие белки: RS2_THET8, RS2_FRATN, RS2_NOCSJ, RS2_PROM3, RS2_BACAH, RS2_PARDP, RS2_CAMJJ, RS2_PELPD, RS2_STRPG, RS2_PROM5. Сделали выравнивание этих белков на kodomo с помощью muscle:
muscle -align uniprotkb_accession_A0Q4H1_OR_accession_2026_05_03.fasta -output rs1_aligned.fasta
Был получен файл с выравниванием.
В Jalview посмотрели выравнивание и отобрали консервативный участок без гэпов длиной 12 аминокислот (100-111).
По этому участку составили паттерн: R-W-L-G-G-[MT]-[LM]-T-N-[FYW]-x-T.
Запустили fuzzpro: fuzzpro -sequence /P/y24/term4/bacteria-sw.fasta -pattern "R-W-L-G-G-[MT]-[LM]-T-N-[FYW]-x-T" -outfile rs2_fuzzpro.
Была найдена 651 находка. Посмотрим сколько из них верных, т. е. относится к RS2:
grep "RS2" rs2_fuzzpro | wc -l
Получили 651, значит все относятся к RS2 (верные).
Получается 99 ложноотрицательных (ненайденные белки с данной мнемоникой).
Запустим программу MEME:
meme rs2_selected.fasta -protein -mod oops -minw 8 -maxw 15 -nmotifs 3 -oc meme_rs2
-protein - говорим что последовательности аминокислотные
-mod oops - один представитель мотива на последовательность (One Occurrence Per Sequence) - то есть мотив должен быть ровно в каждом белке
-minw 8 - минимальная длина мотива 8 аминокислот
-maxw 15 - максимальная длина мотива 15 аминокислот
-nmotifs 3 - найти до 3 разных мотивов
-oc meme_rs2 - папка куда сохранить результаты
Получили директорию meme_rs2 в ней файл meme.html
Программой было найдено три мотива из них все были найдены в 10 белках и имели низкий E-value, так что находки можно считать не случайными.
Теперь ищем мотивы в банке программой MAST:
mast meme_rs2/meme.html /P/y24/term4/bacteria-sw.fasta -oc mast_rs2
Полученный результат в формате html.
По результатам работы MAST:
Всего находок: 754
Верные (RS2): 750 из 750 — все нашлись!
Ложноположительные: 4 (не RS2)
Ложноотрицательные: 0 - ни одного RS2 не пропустили
Вывод: MAST нашёл все 750 белков RS2 без единого пропуска, и всего 4 ложноположительные находки. Это очень хороший результат по сравнению с fuzzpro - MAST благодаря PWM работает точнее и полнее.
Сначала - что такое последовательность Шайна-Дальгарно (ПШД): Это короткая последовательность в мРНК прокариот (~AGGAGG или её часть), которая находится за 5-10 нуклеотидов до старт-кодона и помогает рибосоме найти место начала трансляции.
В этом задании ПШД смотрели в геноме Thermococcus profundus, скачанный еще в 1 семестре. Запустили fuzznuc для прямой цепи:
fuzznuc -sequence term1/genome/GCF_002214585.1_ASM221458v1_genomic.fna -pattern "AGGAGG" -outfile sd_forward.txt
и комплементарной:
fuzznuc -sequence term1/genome/GCF_002214585.1_ASM221458v1_genomic.fna -pattern "AGGAGG" -complement -outfile sd_reverse.txt
Прямая цепь: 2052 находки
Комплементарная цепь: 3967 − 2052 = 1915 находок
Всего: 3967
Частоты нуклеотидов в геноме Thermococcus profundus (длина: 2043143): G = C = 26.63%, A = T = 23.37%. P(AGGAGG) = P(A) × P(G) × P(G) × P(A) × P(G) × P(G) = 0.2337 × 0.2663 × 0.2663 × 0.2337 × 0.2663 × 0.2663 = 0.000275. Ищем на обеих цепях 2 × 2043143 = 4086286. Ожидаемое число = 4086286 × 0.000275 ≈ 1124.
Воспользуемся Z-критерием. Формула: z = (наблюдаемое − ожидаемое) / стандартное отклонение. Для распределения Пуассона стандартное отклонение = √λ = √ожидаемого. Если z > 1.96 — отличие статистически значимо (порог 5%).
При λ = 1124 и наблюдаемом числе сайтов k = 3967 z-критерий составляет: z ≈ (3967 − 1124) / 33.5 ≈ 84.9. Поскольку z >> 1.96 (при стандартном пороге α = 0.05), наблюдаемое число сайтов значимо превышает случайное ожидание. Мы отвергаем нулевую гипотезу о случайном распределении: последовательность AGGAGG встречается в геноме значительно чаще, чем ожидалось бы при случайном распределении нуклеотидов, что подтверждает её функциональную роль как сигнала Шайна-Дальгарно.
Из 15 случайно просмотренных находок одна (позиция 11642-11647) располагалась в правильной позиции относительно старт-кодона: ближайший ген начинается на позиции 11655, что составляет 8 нуклеотидов после конца найденной последовательности. Это попадает в типичный диапазон 5-10 нуклеотидов для последовательности Шайна-Дальгарно. Большинство находок не соответствовали правильной позиции, что может объясняться тем, что Thermococcus profundus является археей, у которой механизм инициации трансляции для некоторых белков может отличаться от классического бактериального.