Практикум 8: Сигналы и мотивы

1. Описание мотива в белках паттерном

Объект и выборка

Базовый паттерн

Для создания первого паттерна использован строго консервативный участок (G1-домен), соответствующий позициям 17–31 в EFG_ECOLI.

AHIDAGKTTTTERIL

Оптимизированный паттерн

Анализ выравнивания показал наличие вариаций например, замена T на S в 6-й последовательности.

A-H-I-D-A-G-K-T-T-T-[TS]-E-R-I-L

Сравнение результатов поиска fuzzpro

При поиске по паттерну программа fuzzpro выдала следующие результаты:

• Всего находок: 507
• Из них верных (TP): 507
• Ложноположительных (FP): 0
• Ложноотрицательных (FN): 221

2. Анализ программами MEME и MAST

Параметры запуска

meme proteins.fasta -mod oops -nmotifs 3 -minw 8 -maxw 15

E-value лучшего мотива: 5.3e-48

МАST обнаружил 2499 белков. Такое большое число находок объясняется тем, что найденные мотивы крайне консервативны не только для EF-G, но и для всего суперсемейства GTP-аз (EF-Tu, IF-2 и др.). Это демонстрирует высокую чувствительность PWM-матриц.

[Открыть MEME.html] [Открыть MAST.html]

Теоретический расчет и статистический анализ

1. Вероятности нуклеотидов (при GC = 52%): P(G) = P(C) = 0.26; P(A) = P(T) = 0.24
2. Вероятность мотива AGGAGG: P(AGGAGG) = 0.242 × 0.264 ≈ 0.0002633
3. Ожидаемое число находок (Nexp) = P × L × 2 цепи ≈ 2602
4. Реально найдено (Nobs) = 1127

5. Оценка значимости отклонения (Z-test):
Z =
|Nobs - Nexp| √Nexp
=
|1127 - 2602| √2602
=
1475 51.01
28.92

Вывод о случайности распределения

Полученное значение Z ≈ 28.92 многократно превышает критическое значение для уровня значимости α = 0.001 (Zкрит = 3.29). Это строго доказывает, что распределение последовательностей Шайна - Дальгарно в геноме Citrobacter tructae не является случайным.

Число сайтов в 2.3 раза меньше ожидаемого. Биологически это объясняется стремлением организма избежать ошибочной инициации трансляции и связывания рибосом в нештатных местах.

Анализ локализации находок

При анализе малой выборки (12 случайных находок) было обнаружено, что около 33% из них находятся на нужном месте (5-12 п.н. до старт-кодона).

Анализ выборки (12 случайных находок)

Координата Цепь Ближайший ген Дистанция Вердикт
1072418+uspF5 п.н.+
2177384-glnK43 п.н.межген
270583+torDвнутриCDS
485967+pduFвнутриCDS
956830-fdnGвнутриCDS
1084352+uspE84 п.н.межгенов
154210+rpsL7 п.н.+
3341200-atpA11 п.н.+
221045+gapAвнутриCDS
4405960-yihX150 п.н.межгенов
882310+rpoB9 п.н.+
1290450-metEвнутриCDS

Вывод: Около 33% проанализированных находок находятся на оптимальном расстоянии (5-12 п.н.) от старт-кодона, что подтверждает их функциональность как пШД.