Учебный сайтик
Кирилла Прокаповича

Описание мотива в белках паттерном

Для задания я выбрал белок энолаза, фермент, участвующий в гликолизе. С помощью seqret скачал 10 последовательностей этого белка из разных бактерий, с помощью muscle сделал выравнивание, и в программе UGENE (Jalview почему-то отказался открываться, не знаю почему) нашел относительно консервативную последовательность из 8 аминокислот 111-118 позиции (N-A-[IV]-L-[AG]-V-S-[LIM]).

Рис.1. Участок консервативной последовательности

Запустили fuzzpro

fuzzpro -sequence /P/y24/term4/bacteria-sw.fasta -pattern "N-A-[IV]-L-[AG]-V-S-[LIM]" -outfile motifs.txt

Всего находок 230, а в базе 748 с такой мнемоникой.

Поиск мотивов в белках программой MEME и поиск этих мотивов в банке

С помощью meme нашлось три мотива во взятых белках примерно в одинаковых местах.

meme bac-ali.fasta -protein -mod oops -nmotifs 3 -minw 8 -maxw 15 -oc meme_out

-protein — последовательности аминокислотные
-mod oops — если мотив встретился несколько раз в одной последовательности, считать за один
-nmotifs 3 — количество найденных мотивов в одной последовательности
-minw 8 -maxw 15 — минимальная и максимальная длина мотива
-oc meme_out — указание папки для выходных файлов

meme.html

Потом с помощью mast я провел поиск этих мотивов в данных белках бактерий. mast.html

Почти все находки имеют низкий e-value, те находки которые не имеют его не являются энолазами.

Поиск последовательности Шайна — Дальгарно в геноме своего прокариота

В первом семестре я работал с геномом Pussilibacter faecalis. Последовательность ШД (5-AGGAGG-3) - сигнал, который узнается рибосомой. Ожидаемое число находок, которое я рассчитал, 965 находок в геноме (С помощью compseq нашел частоты нуклеотидов в геноме P(A)^2*P(G)^4*(длина генома)*2=0.2216314^2*0.2756688^4*3407680*2).

С помощью

fuzznuc -sequence GCF_018408705.1_ASM1840870v1_genomic.fna -pattern AGGAGG -complement N -outfile plus.txt

fuzznuc -sequence GCF_018408705.1_ASM1840870v1_genomic.fna -pattern CTTCTT -complement N -outfile minus.txt

Я нашел 2254 (на +) + 1120 (на -) = 3374 находки. Это в 3,5 раза больше ожидаемое. z=77.6, что значит это не случайная последовательность, а какой-то сигнал.