Мнемоника RS2 – белок малой субъединицы рибосомы (30S). Участвует в связывании мРНК и инициации трансляции. Особенность RS2: высокая консервативность N-концевого домена, что позволяет строить надёжные паттерны. Всего в bacteria-sw.fasta содержится 750 записей RS2.
Выбранные 9 белков: RS2_ECOLI, RS2_BACSU, RS2_THET8, RS2_LISW6, RS2_ARTS2, RS2_BURCH, RS2_AERHH, RS2_MAGMM, RS2_SYNFM.
Консервативный участок (выравнивание muscle, позиции 13-23 в RS2_ECOLI):
[AS]-G-[VF]-H-F-G-H-[QE]-[TR]-[RK] (длина 10 аминокислот, без гэпов).
📎 Выравнивание (FASTA)
Точность: 402/438 ≈ 91,8% | Полнота: 402/750 ≈ 53,6%
Улучшение паттерна:
• Ослабленный [AS]-G-[VF]-x-F-G-x-[QE]-[TR]-[RK] → полнота 82,8%, точность 69,6%.
• Усиленный [AS]-G-[VF]-H-F-G-H-[QE]-[TR]-[RK]-W-N-P → точность 99,3%, полнота 38%.
Базовый паттерн даёт лучший баланс для поиска представителей семейства.
На вход MEME поданы те же 9 белков RS2. Команда:
meme rs2.fasta -protein -mod oops -minw 8 -maxw 15 -nmotifs 3 -oc meme
Найдено 3 мотива (длины 15, 15, 14), каждый присутствует во всех 9 белках.
Мотив 1 (E-value 2.1e-12): G-[VF]-H-F-G-H-[QE]-[TR]-[RK]-W-N-P-K – полностью перекрывается с выбранным консервативным участком.
📎 Результаты MEME (html)
Поиск MAST (против всего bacteria-sw.fasta):
mast meme/meme.html /P/y24/term4/bacteria-sw.fasta -oc mast
Найдено последовательностей с хотя бы одним мотивом: 1264. Из них с мнемоникой RS2 – 688.
Ложноотрицательные: 62, ложноположительные: 576.
Полнота MAST: 688/750 = 91,7% (выше, чем у одиночного паттерна).
📎 Результаты MAST (html)
Вывод: комбинация нескольких мотивов даёт лучшую полноту, но больше шума; паттерн полезен для специфичного поиска.
Что такое SD-последовательность? Это участок бактериальной мРНК (консенсус AGGAGG), комплементарный 3'-концу 16S рРНК. Располагается на расстоянии 5–12 нуклеотидов перед старт-кодоном CDS и необходим для посадки рибосомы.
Геном: Klebsiella quasipneumoniae (GCF_020099175.1), длина L = 5 498 848 нт.
Поиск fuzznuc: прямая цепь – 182 находки, комплементарная – 231, всего – 413.
Частоты нуклеотидов : A=0,2103; C=0,2895; G=0,2905; T=0,2097.
Для прямой цепи (мотив AGGAGG):
P = p(A)² × p(G)⁴ = 0,2103² × 0,2905⁴ = 0,0003151
Efwd = (L – 6 + 1) × P = 5 498 843 × 0,0003151 ≈ 1732,6
Zfwd = (182 – 1732,6) / √1732,6 ≈ -37,3
Для комплементарной цепи (мотив CCTCCT):
Prev = p(C)² × p(T)⁴ = 0,2895² × 0,2097⁴ = 0,0001620
Erev = 5 498 843 × 0,0001620 ≈ 891,0
Zrev = (231 – 891,0) / √891,0 ≈ -22,1
Статистический вывод: |Z| >> 1,96 → отличие достоверно. Мотив AGGAGG встречается в геноме значительно реже случайного (отрицательный Z‑score). Это характерно для функционально значимых коротких последовательностей.
Из файла sd_both.txt вручную просмотрено 15 случайных находок. С помощью геномной таблицы проверено расстояние до ближайшего CDS на той же цепи.
Процент истинных SD-сайтов: 0% (в данной случайной выборке).
Это может быть связано с особенностями конкретного генома или низкой долей функциональных SD-последовательностей. В большинстве бактерий процент обычно 10–20%, но в данном случае выборка не показала ни одного.
Все файлы результатов (выравнивание, fuzzpro, meme, mast, sd_forward.txt, sd_both.txt) доступны в моей директории ~/term4/pr8/.