Практикум 8. Мотивы и формы их представления

1. Описание мотива в белках паттерном

Выбранная мнемоника: SYA (аланил-тРНК-синтетаза, катализирует присоединение аланина к тРНК^Ala). Общее число белков с мнемоникой SYA_ в файле bacteria-sw.fasta — 628 (определено командой grep ">" /P/y24/term4/bacteria-sw.fasta | grep "|SYA_" -c). Отдельно в банке присутствуют две формы из *Lachnoclostridium phytofermentans* — SYA1_LACP7 и SYA2_LACP7, не попадающие под строгую мнемонику, поэтому в общее число они не включены.

Я выбрал следующие бактерии:

Таблица 1. Выбранные бактерии

Идентификатор Организм
SYA_ECOLI Escherichia coli
SYA_BACSU Bacillus subtilis
SYA_MYCTU Mycobacterium tuberculosis
SYA_THET8 Thermus thermophilus
SYA_AQUAE Aquifex aeolicus
SYA_TREPA Treponema pallidum
SYA_CHLTR Chlamydia trachomatis
SYA_HELPY Helicobacter pylori
SYA_NEIMB Neisseria meningitidis
SYA_SYNY3 Synechocystis sp.

Файл последовательностей: SYA_selected.fasta. Выравнивание было выполнено программой mafft

mafft --auto --reorder SYA_selected.fasta > SYA_aligned.fasta

и сохранено в файле SYA_aligned.fasta. Консервативный безгэповый участок в выравнивании: позиции 98–112 (в последовательности SYA_ECOLI — остатки 89–103).
Составлен паттерн из 15 позиций:

T-[FYL]-F-[EQ]-M-[LMA]-G-N-[FW]-[SI]-[FGL]-G-D-Y-F

По этому паттерну проводился поиск с помощью команды

fuzzpro -sequence /P/y24/term4/bacteria-sw.fasta -pattern @SYA_pattern.txt -outfile SYA_fuzzpro.out

Результаты поиска следующие:

Паттерн получился высокоспецифичным (не задел другие семейства), но пропустил около 29% целевых последовательностей.

2. Поиск мотивов в белках программой MEME и поиск этих мотивов в банке

Поиск мотивов программой MEME

Поиск был выполнен с помощью команды

meme SYA_selected.fasta -protein -mod oops -nmotifs 3 -minw 8 -maxw 15 -oc meme_SYA_output

Результаты представлены в файле meme.html. Найдено три мотива с длинами в 15 аминокислотных остатков

Таблица 2. Мотивы, найденные программой MEME

Мотив E-value Число сайтов Присутствие в исходных последовательностях
MEME-1 (TFFEMLGNFSFGDYF) 1.4e‑94 10 Найден во всех 10 белках (p-value < 10⁻¹⁷)
MEME-2 (RYJEIWNLVFMQYNR) 4.5e‑72 10 Найден во всех 10 белках (p-value < 10⁻¹⁴)
MEME-3 (GPCGPCSEIFYDRGE) 1.1e‑71 10 Найден во всех 10 белках (p-value < 10⁻¹⁵)

Все мотивы строго присутствуют в каждой из десяти выбранных последовательностей. Первый мотив совпадает с участком, выбранным мной для паттерна.

Поиск мотивов программой MAST

Поиск был выполнен с помощью команды

mast meme_SYA_output/meme.html /P/y24/term4/bacteria-sw.fasta -oc mast_SYA_output

Получены следующие результаты:

Чувствительность поиска относительно строгой мнемоники составила 100%, при этом получено всего 2 ложноположительных результата. Это означает, что PWM, построенные MEME, отлично описывают семейство аланил-тРНК-синтетаз.

Выводы

3. Поиск последовательности Шайна—Дальгарно в геноме

Я работал с организмом Thiomicrorhabdus aquaedulcis, работая исключительно с геномом нуклеосомы (плазмиды не рассматривались. Файлы: геномная последовательность и аннотация CDS. Для поиска ПШД использовался паттерн AGGAGG. Он был записан в файл sd_pattern.txt.

Поиск ПШД на обеих цепях

Поиск выполнен с помощью fuzznuc раздельно для прямой и комплементарной цепей:

fuzznuc -sequence genomic.fna -pattern @sd_pattern.txt -outfile fuzznuc_direct.out
fuzznuc -sequence genomic.fna -pattern @sd_pattern.txt -complement -outfile fuzznuc_comp.out

Файлы были объединены и очищены от служебных строк. В общей сложности получилось 209 уникальных находок.

Статистическая оценка числа находок

Командой compseq -sequence genomic.fna -word 1 -outfile basecomp.txt были получены доли A, C, G, T:

Таблица 3. Доли A, C, G, T в нуклеосоме Thiomicrorhabdus aquaedulcis

Word Obs Count Obs Frequency Exp Frequency Obs/Exp Frequency
A 668170 0.2738172 0.2500000 1.0952686
C 550060 0.2254155 0.2500000 0.9016620
G 557339 0.2283984 0.2500000 0.9135937
T 664636 0.2723689 0.2500000 1.0894757

Вероятность мотива AGGAGG при независимых позициях составит P = 0.2738 × 0.2284² × 0.2738 × 0.2284² ≈ 2.04×10⁻⁴. Длина генома – 2440205 п.н. Суммарная длина двух цепей – 4880410. Следовательно, ожидаемое число находок составит 2.04×10⁻⁴ × 4 880 410 ≈ 995.

Фактическое количество (209) более чем в 4.7 раза меньше ожидаемого. Такое отклонение крайне маловероятно при случайном распределении. Следовательно, распределение мотива не случайно: в геноме наблюдается выраженный дефицит AGGAGG. Это может объясняться как отрицательным отбором (функциональная ПШД сохраняется лишь вблизи генов), так и неадекватностью модели независимых нуклеотидов (реальные динуклеотидные предпочтения занижают вероятность мотива). Таким образом, отличие от ожидаемого по простой модели является достоверным.

Оценка доли находок, расположенных корректно относительно старт-кодонов

Доля ПШД, корректно расположенных относительно старт-кодонов, оценивалась “глазами” на 15 случайно выбранных находках (shuf -n 15 sd_hits.txt > random_hits.txt). Таблица CDS была взята из моих практикумов первого семестра (списал у себя из прошлого).

Таблица 4. Анализ выбранных находок на коррекнтность расположение относительно старт-кодона. Расстояние до следующей CDS указано для соответствующей цепи (прямой или комплементарной). Положительное расстояние значит до начала CDS, отрицательное – внутри CDS.

n Start End Strand Расположен правильно Расстояние до следующей CDS near CDS start nea CDS end near CDS product accession Комментарий
1 2354989 2354994 - Да 5 2354046 2354984 WP_127471640.1
2 2179597 2179602 + Нет -217 2179385 2180740 WP_127471495.1 Расположен внутри CDS
3 2052379 2052384 + Нет -217 2052167 2052496 WP_127471402.1
4 2113937 2113942 + Нет >3000 Далеко от какой-либо CDS
5 1270034 1270039 - Нет 131 1269190 1269903 WP_127470821.1
6 617404 617409 + Нет >2000 Далеко от какой-либо CDS
7 2292247 2292252 + Нет -113 2292129 2292350 WP_127471587.1
8 1230618 1230623 + Нет >4000 Далеко от какой-либо CDS
9 679779 679784 + Да 5 679789 680076 WP_127470345.1
10 2092634 2092639 - Нет >5000 2089585 2090271 WP_127471432.1
11 1586005 1586010 - Нет >5000 1579811 1580464 WP_127471048.1
12 1938115 1938120 - Нет -870 1937672 1938985 WP_127471319.1
13 2292247 2292252 + Нет -123 2292129 2292350 WP_127471587.1
14 1472630 1472635 - Нет 342 1470375 1472288 WP_127470969.1
15 151667 151672 - Да 6 149283 151661 WP_127469938.1
Из 15 проверенных находок только 3 (20%) находятся на характерном для ПШД расстоянии 5-6 п.н. перед старт-кодоном на той же цепи. Следовательно, подавляющее большинство копий AGGAGG в геноме T. aquaedulcis не являются функциональными сайтами связывания рибосомы, что согласуется с наблюдавшимся общим дефицитом мотива относительно случайного ожидания.