Практикум 8. Сигналы и мотивы

1. Описание мотива в белках паттерном

Выбранная мнемоника: SYC (аминоацил-тРНК-синтетаза цистеина).

Функция: катализирует присоединение цистеина к тРНК(Cys).

Всего белков с SYC_*: 675.

Выбранные белки: SYC_ECOLI, SYC_CAMFF, SYC_BARBK, SYC_POLNA, SYC_SHELP, SYC_KLEP7, SYC_ACHLI, SYC_BACMK, SYC_SHEHH.

С помощью команд было получено выравнивание

>seqret @SYC.list syc.fasta
muscle -align syc.fasta -output syc_alignment.fasta

Выравнивание: ссылка.

Консервативный участок: позиции 225–236

Паттерн: G-R-P-G-W-H-[IST]-E-C-[SV]-[AV]-M.

2026 05 09 16 45 35
Рис. 1. Участок выравивания.
fuzzpro /P/y24/term4/bacteria-sw.fasta -pattern "G-R-P-G-W-H-[IST]-E-C-[SV]-[AV]-M" -outfile syc.fuzzpro

Результаты поиска fuzzpro:

2. Поиск мотивов в белках программой MEME и поиск этих мотивов в банке

meme syc.fasta -protein -mod oops -nmotifs 3 -minw 8 -maxw 15 -o meme_output

-protein: аминокислотные последовательности

-mod oops: по одному представителю мотива на последовательность

-nmotifs: число мотивов

-minw: минимальная длина

-maxw: максимальная длина

-o: выходная директория (output)

В каждом белке было обнаружено 3 консервативных мотива с низким E-value.

Результаты MEME

mast meme_output/meme.html /P/y24/term4/bacteria-sw.fasta -o mast_output

Результаты MAST

3. Поиск последовательности Шайна — Дальгарно в геноме прокариота Sutcliffiella horikoshii

fuzznuc GCF_002157855.1_ASM215785v1_genomic.fna -pattern 'A-G-G-A-G-G' -complement -outfile SD.out

Длина генома: 4 295 882 н.п.

Встречаемость A: 1 266 136 (29.5%).

Встречаемость G: 874 842 (20.4%).

Находок fuzznuc (с учётом комплементарной цепи): 2450.

  • Вероятность паттерна AGGAGG: p(A)² × p(G)⁴ = 0.2947² × 0.2037⁴ = 1.495×10⁻⁴
  • Ожидаемое число находок на одной цепи: 4 295 882 × 1.495×10⁻⁴ = 642
  • Ожидаемое число находок на двух цепях (с учётом комплементарности): 642 × 2 = 1284
  • Реальное число находок значительно выше ожидаемого, что говорит о биологической значимости мотива.

    Используя скрипт был найден процент находок, которые паспологаются в правильной позиции относительно старт кодона: 749 из 2462 (30.42%)