Практикум 8.

1. Описание мотива в белках паттерном

Для выполнения задания был выбран бактериальный белок с мнемоникой PAND (Aspartate 1-decarboxylase) - фермент, катализирующий декарбоксилирование аспартата с образованием бета-аланина.

Команда

grep -c "|PAND_" /P/y24/term4/bacteria-sw.fasta

нашла 400 белков с такой мнемоникой в файле с белковыми последовательностями бактерий, среди них были выбраны следующие 10:

PAND_ARTS2

PAND_BURCH

PAND_ECOLI

PAND_ECOLW

PAND_HELPY

PAND_LISW6

PAND_MYCTA

PAND_MYCTU

PAND_SALTY

PAND_SYNFM

Участок выравнивания 7-16 был выбран в качестве паттерна:

[KQYN]-[SG]-K-[IL]-H-R-[AV]-[TAKR]-[VI]-T

Ссылка на файл с выравниванием

Программой fuzzpro был произведен поиск по полученному паттерну в файле /P/y24/term4/bacteria-sw.fasta:

fuzzpro -sequence /P/y24/term4/bacteria-sw.fasta -pattern "[KQYN]-[SG]-K-[IL]-H-R-[AV]-[TAKR]-[VI]-T" -outfile fuzzpro_out

Всего было найдено 190 последовательностей. Таким образом, число ложноотрицательных находок составило 400 - 190 = 210

Использование улучшенного паттерна [SG]-K-[IL]-H-R-[AV]-x-[VI]-T дало 230 находок. Все находки имели мнемонику PAND. Таким образом, ложноположительных результатов не нашлось:

grep -c "PAND" fuzzpro_out_3

Тем не менее, даже после улучшения паттерна число ложноположительных результатов осталось довольно высоким.

2. Поиск мотивов в белках программой MEME

Далее, в этих же белках, был произведен поиск мотивов с помощью программы meme:

meme PAND.fasta -protein -mod oops -nmotifs 3 -minw 8 -maxw 15

В каждой последовательности с мнемоникой PAND нашлось 3 мотива

Выдача meme.

Затем, для поиска найденых мотивов в файле /P/y24/term4/bacteria-sw.fasta, выдача MEME была подана на вход программы MAST:

mast ~/public_html/term4/meme.html /P/y24/term4/bacteria-sw.fasta

Выдача mast.

Мотивы, найденные с помощью MEME были найдены во всех 400 белках с мнемоникой PAND.

Поиск последовательности Шайна — Дальгарно

Поиск поледовательности Шайна-Дальгарно (AGGAGG) производился в геноме бактерии Streptomyces rimosus subsp. rimosus ATCC 10970, с которым я работал ранее. Поиск производился программой fuzznuc по прямой и комплиментарной цепям:

fuzznuc -sequence GCF_000331185.2_ASM33118v2_genomic.fna -pattern "A-G-G-A-G-G" -complement Y  -outfile fuzznuc_out_3.txt

Всего было обнаружено 4251 находок на прямой цепи и 8955 на обратной (т. о. 13206 всего).

Последовательность исследуемого генома имеет длину в 9351267 нуклеотидов и следующее содержание нуклеотидов: G: 3363489 = 35,96%; C: 3365947 = 35,99%; T: 1315509 = 14,07%; A: 1306322 = 13,96%

Таким образом, число случайных мотивов AGGAGG с учетом комплиментарной цепи будет примерно равно (0,1396*0,3596^2)^2*9351267*2=6094.

Для оценки достоверности найденного числа находок был использован биномиальный тест. Расчитанное p-значение получилось меньше 2.2e-16, что на уровне значимости alpha = 0.001 говорит о статистически значимом различии между случайном и реальном числом находок.

Посмотрев на координаты 20 случайных находок и сравнив их с кординатами предполаемых мотивов AGGAGG (10-15 нуклеотидов от CDS) оказалось, что ни одна из них не находится на необходимом расстоянии от старт кодона, чтобы считаться последовательностью Шайна-Дальгарно. Это может говорить о том, что у исследуемой бактерии последовательность Шайна-Дальгарно не является столь консервативной.