Для задания я выбрал белок энолаза, фермент, участвующий в гликолизе. С помощью seqret скачал 10 последовательностей этого белка из разных бактерий, с помощью muscle сделал выравнивание, и в программе UGENE (Jalview почему-то отказался открываться, не знаю почему) нашел относительно консервативную последовательность из 8 аминокислот 111-118 позиции (N-A-[IV]-L-[AG]-V-S-[LIM]).
Запустили fuzzpro
fuzzpro -sequence /P/y24/term4/bacteria-sw.fasta -pattern "N-A-[IV]-L-[AG]-V-S-[LIM]" -outfile motifs.txt
Всего находок 230, а в базе 748 с такой мнемоникой.
С помощью meme нашлось три мотива во взятых белках примерно в одинаковых местах.
meme bac-ali.fasta -protein -mod oops -nmotifs 3 -minw 8 -maxw 15 -oc meme_out
-protein — последовательности аминокислотные
-mod oops — если мотив встретился несколько раз в одной последовательности, считать за один
-nmotifs 3 — количество найденных мотивов в одной последовательности
-minw 8 -maxw 15 — минимальная и максимальная длина мотива
-oc meme_out — указание папки для выходных файлов
Потом с помощью mast я провел поиск этих мотивов в данных белках бактерий. mast.html
Почти все находки имеют низкий e-value, те находки которые не имеют его не являются энолазами.
В первом семестре я работал с геномом Pussilibacter faecalis. Последовательность ШД (5-AGGAGG-3) - сигнал, который узнается рибосомой. Ожидаемое число находок, которое я рассчитал, 965 находок в геноме (С помощью compseq нашел частоты нуклеотидов в геноме P(A)^2*P(G)^4*(длина генома)*2=0.2216314^2*0.2756688^4*3407680*2).
С помощью
fuzznuc -sequence GCF_018408705.1_ASM1840870v1_genomic.fna -pattern AGGAGG -complement N -outfile plus.txt
fuzznuc -sequence GCF_018408705.1_ASM1840870v1_genomic.fna -pattern CTTCTT -complement N -outfile minus.txt
Я нашел 2254 (на +) + 1120 (на -) = 3374 находки. Это в 3,5 раза больше ожидаемое. z=77.6, что значит это не случайная последовательность, а какой-то сигнал.