Для выполнения задания был выбран бактериальный белок с мнемоникой PAND (Aspartate 1-decarboxylase) - фермент, катализирующий декарбоксилирование аспартата с образованием бета-аланина.
Команда
grep -c "|PAND_" /P/y24/term4/bacteria-sw.fastaнашла 400 белков с такой мнемоникой в файле с белковыми последовательностями бактерий, среди них были выбраны следующие 10:
Участок выравнивания 7-16 был выбран в качестве паттерна:
[KQYN]-[SG]-K-[IL]-H-R-[AV]-[TAKR]-[VI]-T

Программой fuzzpro был произведен поиск по полученному паттерну в файле /P/y24/term4/bacteria-sw.fasta:
fuzzpro -sequence /P/y24/term4/bacteria-sw.fasta -pattern "[KQYN]-[SG]-K-[IL]-H-R-[AV]-[TAKR]-[VI]-T" -outfile fuzzpro_out
Всего было найдено 190 последовательностей. Таким образом, число ложноотрицательных находок составило 400 - 190 = 210
Использование улучшенного паттерна [SG]-K-[IL]-H-R-[AV]-x-[VI]-T дало 230 находок. Все находки имели мнемонику PAND. Таким образом, ложноположительных результатов не нашлось:
grep -c "PAND" fuzzpro_out_3
Тем не менее, даже после улучшения паттерна число ложноположительных результатов осталось довольно высоким.
Далее, в этих же белках, был произведен поиск мотивов с помощью программы meme:
meme PAND.fasta -protein -mod oops -nmotifs 3 -minw 8 -maxw 15
В каждой последовательности с мнемоникой PAND нашлось 3 мотива
Затем, для поиска найденых мотивов в файле /P/y24/term4/bacteria-sw.fasta, выдача MEME была подана на вход программы MAST:
mast ~/public_html/term4/meme.html /P/y24/term4/bacteria-sw.fasta
Мотивы, найденные с помощью MEME были найдены во всех 400 белках с мнемоникой PAND.