Практикум 8.

1. Описание мотива в белках паттерном

Для выполнения задания был выбран бактериальный белок с мнемоникой PAND (Aspartate 1-decarboxylase) - фермент, катализирующий декарбоксилирование аспартата с образованием бета-аланина.

Команда

grep -c "|PAND_" /P/y24/term4/bacteria-sw.fasta
нашла 400 белков с такой мнемоникой в файле с белковыми последовательностями бактерий, среди них были выбраны следующие 10:

  • PAND_ARTS2
  • PAND_BURCH
  • PAND_ECOLI
  • PAND_ECOLW
  • PAND_HELPY
  • PAND_LISW6
  • PAND_MYCTA
  • PAND_MYCTU
  • PAND_SALTY
  • PAND_SYNFM

    Участок выравнивания 7-16 был выбран в качестве паттерна:

    [KQYN]-[SG]-K-[IL]-H-R-[AV]-[TAKR]-[VI]-T

  • Ссылка на файл с выравниванием
  • American beaver
    Рис.1. Участок выравнивания, выбранный для паттерна.

    Программой fuzzpro был произведен поиск по полученному паттерну в файле /P/y24/term4/bacteria-sw.fasta:

    fuzzpro -sequence /P/y24/term4/bacteria-sw.fasta -pattern "[KQYN]-[SG]-K-[IL]-H-R-[AV]-[TAKR]-[VI]-T" -outfile fuzzpro_out

    Всего было найдено 190 последовательностей. Таким образом, число ложноотрицательных находок составило 400 - 190 = 210

    Использование улучшенного паттерна [SG]-K-[IL]-H-R-[AV]-x-[VI]-T дало 230 находок. Все находки имели мнемонику PAND. Таким образом, ложноположительных результатов не нашлось:

    grep -c "PAND" fuzzpro_out_3

    Тем не менее, даже после улучшения паттерна число ложноположительных результатов осталось довольно высоким.

    2. Поиск мотивов в белках программой MEME

    Далее, в этих же белках, был произведен поиск мотивов с помощью программы meme:

    meme PAND.fasta -protein -mod oops -nmotifs 3 -minw 8 -maxw 15

    В каждой последовательности с мнемоникой PAND нашлось 3 мотива

  • Выдача meme.
  • Затем, для поиска найденых мотивов в файле /P/y24/term4/bacteria-sw.fasta, выдача MEME была подана на вход программы MAST:

    mast ~/public_html/term4/meme.html /P/y24/term4/bacteria-sw.fasta
  • Выдача mast.
  • Мотивы, найденные с помощью MEME были найдены во всех 400 белках с мнемоникой PAND.

    Поиск последовательности Шайна — Дальгарно

    Поиск поледовательности Шайна-Дальгарно (AGGAGG) производился в геноме бактерии Streptomyces rimosus subsp. rimosus ATCC 10970, с которым я работал ранее. Поиск производился программой fuzznuc по прямой и комплиментарной цепям:

    fuzznuc -sequence GCF_000331185.2_ASM33118v2_genomic.fna -pattern "A-G-G-A-G-G" -complement Y  -outfile fuzznuc_out_3.txt
    

    Всего было обнаружено 4251 находок на прямой цепи и 8955 на обратной (т. о. 13206 всего).

    Последовательность исследуемого генома имеет длину в 9351267 нуклеотидов и следующее содержание нуклеотидов: G: 3363489 = 35,96%; C: 3365947 = 35,99%; T: 1315509 = 14,07%; A: 1306322 = 13,96%

    Таким образом, число случайных мотивов AGGAGG с учетом комплиментарной цепи будет примерно равно (0,1396*0,3596^2)^2*9351267*2=6094.

    Для оценки достоверности найденного числа находок был использован биномиальный тест. Расчитанное p-значение получилось меньше 2.2e-16, что на уровне значимости alpha = 0.001 говорит о статистически значимом различии между случайном и реальном числом находок.

    Посмотрев на координаты 20 случайных находок и сравнив их с кординатами предполаемых мотивов AGGAGG (10-15 нуклеотидов от CDS) оказалось, что ни одна из них не находится на необходимом расстоянии от старт кодона, чтобы считаться последовательностью Шайна-Дальгарно. Это может говорить о том, что у исследуемой бактерии последовательность Шайна-Дальгарно не является столь консервативной.