Выбранная мнемоника: SYA (аланил-тРНК-синтетаза, катализирует присоединение аланина к тРНК^Ala). Общее число белков с мнемоникой SYA_ в файле bacteria-sw.fasta — 628 (определено командой grep ">" /P/y24/term4/bacteria-sw.fasta | grep "|SYA_" -c). Отдельно в банке присутствуют две формы из *Lachnoclostridium phytofermentans* — SYA1_LACP7 и SYA2_LACP7, не попадающие под строгую мнемонику, поэтому в общее число они не включены.
Я выбрал следующие бактерии:
Таблица 1. Выбранные бактерии
| Идентификатор | Организм |
|---|---|
| SYA_ECOLI | Escherichia coli |
| SYA_BACSU | Bacillus subtilis |
| SYA_MYCTU | Mycobacterium tuberculosis |
| SYA_THET8 | Thermus thermophilus |
| SYA_AQUAE | Aquifex aeolicus |
| SYA_TREPA | Treponema pallidum |
| SYA_CHLTR | Chlamydia trachomatis |
| SYA_HELPY | Helicobacter pylori |
| SYA_NEIMB | Neisseria meningitidis |
| SYA_SYNY3 | Synechocystis sp. |
Файл последовательностей: SYA_selected.fasta. Выравнивание было выполнено программой mafft
mafft --auto --reorder SYA_selected.fasta > SYA_aligned.fasta
и сохранено в файле
SYA_aligned.fasta. Консервативный безгэповый
участок в выравнивании: позиции 98–112
(в последовательности SYA_ECOLI — остатки 89–103).
Составлен паттерн из 15 позиций:
T-[FYL]-F-[EQ]-M-[LMA]-G-N-[FW]-[SI]-[FGL]-G-D-Y-F
По этому паттерну проводился поиск с помощью команды
fuzzpro -sequence /P/y24/term4/bacteria-sw.fasta -pattern @SYA_pattern.txt -outfile SYA_fuzzpro.out
Результаты поиска следующие:
Поиск был выполнен с помощью команды
meme SYA_selected.fasta -protein -mod oops -nmotifs 3 -minw 8 -maxw 15 -oc meme_SYA_output
Результаты представлены в файле meme.html. Найдено три мотива с длинами в 15 аминокислотных остатков
Таблица 2. Мотивы, найденные программой MEME
| Мотив | E-value | Число сайтов | Присутствие в исходных последовательностях |
|---|---|---|---|
| MEME-1 (TFFEMLGNFSFGDYF) | 1.4e‑94 | 10 | Найден во всех 10 белках (p-value < 10⁻¹⁷) |
| MEME-2 (RYJEIWNLVFMQYNR) | 4.5e‑72 | 10 | Найден во всех 10 белках (p-value < 10⁻¹⁴) |
| MEME-3 (GPCGPCSEIFYDRGE) | 1.1e‑71 | 10 | Найден во всех 10 белках (p-value < 10⁻¹⁵) |
Все мотивы строго присутствуют в каждой из десяти выбранных последовательностей. Первый мотив совпадает с участком, выбранным мной для паттерна.
Поиск был выполнен с помощью команды
mast meme_SYA_output/meme.html /P/y24/term4/bacteria-sw.fasta -oc mast_SYA_output
Получены следующие результаты:
Я работал с организмом Thiomicrorhabdus aquaedulcis, работая исключительно с геномом нуклеосомы (плазмиды не рассматривались. Файлы: геномная последовательность и аннотация CDS. Для поиска ПШД использовался паттерн AGGAGG. Он был записан в файл sd_pattern.txt.
Поиск выполнен с помощью fuzznuc раздельно для прямой и комплементарной цепей:
fuzznuc -sequence genomic.fna -pattern @sd_pattern.txt -outfile fuzznuc_direct.out fuzznuc -sequence genomic.fna -pattern @sd_pattern.txt -complement -outfile fuzznuc_comp.out
Файлы были объединены и очищены от служебных строк. В общей сложности получилось 209 уникальных находок.
Командой compseq -sequence genomic.fna -word 1 -outfile basecomp.txt были получены доли A, C, G, T:
Таблица 3. Доли A, C, G, T в нуклеосоме Thiomicrorhabdus aquaedulcis
| Word | Obs Count | Obs Frequency | Exp Frequency | Obs/Exp Frequency |
|---|---|---|---|---|
| A | 668170 | 0.2738172 | 0.2500000 | 1.0952686 |
| C | 550060 | 0.2254155 | 0.2500000 | 0.9016620 |
| G | 557339 | 0.2283984 | 0.2500000 | 0.9135937 |
| T | 664636 | 0.2723689 | 0.2500000 | 1.0894757 |
Вероятность мотива AGGAGG при независимых позициях составит P = 0.2738 × 0.2284² × 0.2738 × 0.2284² ≈ 2.04×10⁻⁴. Длина генома – 2440205 п.н. Суммарная длина двух цепей – 4880410. Следовательно, ожидаемое число находок составит 2.04×10⁻⁴ × 4 880 410 ≈ 995.
Фактическое количество (209) более чем в 4.7 раза меньше ожидаемого. Такое отклонение крайне маловероятно при случайном распределении. Следовательно, распределение мотива не случайно: в геноме наблюдается выраженный дефицит AGGAGG. Это может объясняться как отрицательным отбором (функциональная ПШД сохраняется лишь вблизи генов), так и неадекватностью модели независимых нуклеотидов (реальные динуклеотидные предпочтения занижают вероятность мотива). Таким образом, отличие от ожидаемого по простой модели является достоверным.
Доля ПШД, корректно расположенных относительно старт-кодонов, оценивалась “глазами” на 15 случайно выбранных находках (shuf -n 15 sd_hits.txt > random_hits.txt). Таблица CDS была взята из моих практикумов первого семестра (списал у себя из прошлого).
Таблица 4. Анализ выбранных находок на коррекнтность расположение относительно старт-кодона. Расстояние до следующей CDS указано для соответствующей цепи (прямой или комплементарной). Положительное расстояние значит до начала CDS, отрицательное – внутри CDS.
| n | Start | End | Strand | Расположен правильно | Расстояние до следующей CDS | near CDS start | nea CDS end | near CDS product accession | Комментарий |
|---|---|---|---|---|---|---|---|---|---|
| 1 | 2354989 | 2354994 | - | Да | 5 | 2354046 | 2354984 | WP_127471640.1 | |
| 2 | 2179597 | 2179602 | + | Нет | -217 | 2179385 | 2180740 | WP_127471495.1 | Расположен внутри CDS |
| 3 | 2052379 | 2052384 | + | Нет | -217 | 2052167 | 2052496 | WP_127471402.1 | |
| 4 | 2113937 | 2113942 | + | Нет | >3000 | – | – | – | Далеко от какой-либо CDS |
| 5 | 1270034 | 1270039 | - | Нет | 131 | 1269190 | 1269903 | WP_127470821.1 | |
| 6 | 617404 | 617409 | + | Нет | >2000 | – | – | – | Далеко от какой-либо CDS |
| 7 | 2292247 | 2292252 | + | Нет | -113 | 2292129 | 2292350 | WP_127471587.1 | |
| 8 | 1230618 | 1230623 | + | Нет | >4000 | – | – | – | Далеко от какой-либо CDS |
| 9 | 679779 | 679784 | + | Да | 5 | 679789 | 680076 | WP_127470345.1 | |
| 10 | 2092634 | 2092639 | - | Нет | >5000 | 2089585 | 2090271 | WP_127471432.1 | |
| 11 | 1586005 | 1586010 | - | Нет | >5000 | 1579811 | 1580464 | WP_127471048.1 | |
| 12 | 1938115 | 1938120 | - | Нет | -870 | 1937672 | 1938985 | WP_127471319.1 | |
| 13 | 2292247 | 2292252 | + | Нет | -123 | 2292129 | 2292350 | WP_127471587.1 | |
| 14 | 1472630 | 1472635 | - | Нет | 342 | 1470375 | 1472288 | WP_127470969.1 | |
| 15 | 151667 | 151672 | - | Да | 6 | 149283 | 151661 | WP_127469938.1 |