Мотивы и формы их представления

Описание мотива в белках паттерном

В этом практикуме я решил поискать мотив енолазы (ENO) - фермента, участвующего в предпоследнем этапе гликолиза. Енолаза катализирует переход 2-фосфо-D-глицериновой кислоты в фосфоенолпируват. При этом от 2-фосфо-D-глицерата отщепляется одна молекула воды.

Мной были выбраны белки следующих бактерий (в дальнейшем будут использоваться буквенные сокращения):

  • BACSU -Bacillus subtilis
  • DEIRA -Deinococcus radiodurans
  • ECOLI -Escherichia coli
  • HELPY -Helicobacter pylori
  • MYCTU -Mycobacterium tuberculosis
  • PSEAE -Pseudomonas aeruginosa
  • STRPN -Streptococcus pneumoniae
  • THEMA -Thermotoga maritima
  • Файл с мнемониками: тык

    Всего в файле bacteria-sw.fasta было найдено 773 белка с такой мнемоникой (из них 12 - это изоформа ENO1, 12 - изоформа ENO2, 1 - изоформа ENO3). Искали с помощью команды:

    grep -c "|ENO_*" /P/y24/term4/bacteria-sw.fasta

    Рис.1. Консервативный блок в выравнивании 8 белков ENO.

    Далее из базы Swiss-Prot были получены последовательности белков с помощью команды:

    seqret @all_eno all_eno.fasta

    Затем скачанные последовательности выровнены c помощью Muscle на Kodomo:

    muscle -align all_eno.fasta -output alignment_eno.fasta

    Файл с выравниванием: тык

    В качестве консервативного блока был выбран участок белкового выравнивания 147-158 (12 аминокислот)
    или 146-157 аминокислотные остатки в белке ECOLI (рис.1).

    По данному участку составили следующий паттерн: [LM]-P-[VT]-P-[ML]-[ML]-N-[IV]-[IVL]-N-G-G

    Провели поиск программой fuzzpro по этому паттерну среди всех белков бактерий из Swiss-Prot:

    fuzzpro -sequence /P/y24/term4/bacteria-sw.fasta -pattern '[LM]-P-[VT]-P-[ML]-[ML]-[N]-[IV]-[IVL]-N-G-G' -outfile eno_pattern_res.txt

    В результате получили 598 белковых находок, причём все из них енолазы (все находки положительные); 175 ложноотрицательных результатов (ненайденные белки с данной мнемоникой).

    Улучшенный паттерн: [LIVM]-P-[VIT]-P-[LIVM]-[LIVM]-N-[IV]-[LIV]-N-G-G-x-H - получили 613 находок, все из них енолазы; 150 ложноотрицательных результатов (ненайденные белки с данной мнемоникой). Дальнейшие попытки улучшения паттерна не привели к улучшению результата.

    Поиск мотивов в белках программой MEME и поиск этих мотивов в банке

    Поищем мотивы в белках, с помощью программы MEME - выполнили следующую команду:

    Рис.2. Найденные мотивы с помощью программы Meme.
    meme all_eno.fasta -protein -mod oops -nmotifs 3 -minw 8 -maxw 15 -oc meme_res
    -protein - входные последовательности белковые
    -mod oops - один сайт мотива в каждой последовательности
    -nmotifs 3 - ищем 3 мотива в одной последовательности
    -minw 8 -maxw 15 - минимальная и максимальная длина мотива

    Получили файл в формате html: тык. Meme нашёл три мотива (рис.2). Найденные мотивы были направлены в программу Mast для поиска в базе всех белков бактерий:

    mast meme_res/meme.txt /P/y24/term4/bacteria-sw.fasta -oc mast_res

    Получили файл в формате html: тык. На странице с выдачей MAST указано, что 783 последовательнонсти имеют E-value меньше 10. А также, что показанные совпадения мотивов имеют p-value для позиции меньше 0,0001. На блоковой диаграмме (рис.3) видим, что голубой мотив (RSDRVAKYNQLLRIE) может встретиться дважды. Вариативный повтор следует до основного. Красный мотив (PVPMMNIINGGEHAD), который мы нашли глазами в предыдущем задании, встречается единожды в енолазах. Зелёный мотив (YPIISIEDGLDESDW) в редких случаях может встретиться дважды, как до, так и после основного мотива. Последняя нужная находка (енолаза) имеет e-value, равный 1.3e-5. Далее видим ещё 11 других белков с большим e-value (рис.4). Таким образом, из 773 енолаз из файла мы нашли 772 (я считаю, это очень хороший результат).

    Рис. 3. Варианты положения найденных мотивов в белках с выбранной мнемоникой.
    Рис. 4. Положение найденных мотивов в других белках.

    Поиск последовательности Шайна — Дальгарно в геноме своего прокариота

    Последовательность Шайна—Дальгарно это рибосом-связывающий сайт у бактерий — короткий сигнал перед старт-кодоном. Обычно это AGGAGG ~в 10 п.о. от старт-кодона (AUG).

    Для поиска был использован файл с полным геномом (genomic fna) и геномная таблица (feature table) бактерии Moraxella ovis, которые были скачаны в первом семестре. Всего в геноме этой бактерии аннотировано 2191 белок-кодирующих CDS.

    С помощью программы fuzznuc ПШД в геноме Moraxella ovis поискали паттерн AGGAGG на (+) и (-) цепи следующими командами:

    fuzznuc -sequence genome/GCF_001636015.1_ASM163601v1_genomic.fna -pattern AGGAGG -complement N -outfile plus.txt
    fuzznuc -sequence genome/GCF_001636015.1_ASM163601v1_genomic.fna -pattern CCTCCT -complement N -outfile minus.txt

    На плюс цепи 73 находки + 74 находки на минус цепи = 147 находок. То есть по этой оценке мы нашли примерно CDS с последовательностью Шайна—Дальгарно среди всех CDS (2191 штук).

    С помощью программы compseq посчитали частоты нуклеотидов:

    compseq -sequence genome/GCF_001636015.1_ASM163601v1_genomic.fna -word 1 -outfile nucleotide.txt

    Посмотрим на наблюдаемые частоты нуклеодидов в геноме: P(A) = 0.2733214; P(C) = 0.2250328; P(T) = 0.2740906; P(G) = 0.2275552. Согласно этим частотам, вероятность получить последовательность AGGAGG, если это случайные независимо распределённые буквы: P(AGGAGG) = P(A)^2 * P(G)^4 = (0.2733214)^2 * (0.2275552)^4 = 2,003 * 10^-4. А количество находок в геноме тогда: P(AGGAGG) * длина генома = 2,003 * 10^-4 * 2306095 = 462. Однако это в 3,14 раз больше, чем реальное число находок. При больших n и маленьких p биномиальное распределение апроксимируется Пуассоновским. При λ = 147 и наблюдаемом числе сайтов k = 462 z критерий составляет: z ≈ (462 - 147) / 21,5 ≈ 14,65. Поскольку z >> 1.96 ( при стандартном пороге alpha = 0.05), формально это большое отклонение и это не случайные буквы в геноме. Мы должны отвергнуть нулевую гипотезу о том, что наблюдаемое число сайтов последовательности Шайна-Дальгарно соответствует случайному ожиданию. Наблюдаемое число сайтов значимо меньше того, которое стоило бы ожидать при случайном распределении нуклеотидов, что говорит о том, что это сигнал, а не случайный набор букв.

    Из 15 случайно выбранных сайтов, содержащих последовательность AGGAGG, 4 (26,67%) расположены на расстоянии 5–15 нуклеотидов перед старт-кодоном какого-либо CDS. Остальные 10 находок находятся в позициях, не соответствующих функциональной ПШД (внутри генов, на противоположной цепи или слишком далеко/близко от старт-кодона). Получается, что хотя находок гораздо меньше чем белок-кодирующих генов в геноме, но примерно четверть находок, скорее всего, является истиными ПШД. Для других генов ПШД может быть представлена неидеальными вариантами (например, AGGAG, GGAGG, GAGG), которые также способны связывать рибосому, но с меньшей эффективностью, или используются альтернативные механизмы инициации трансляции.