Сигналы и мотивы

Описание мотива в белках паттерном

В данном задании перед нами стояла задача найти паттерн у какого-либо семейства белков, с помощью которого в дальнейшем мы искали другие белки, относящиеся к выбранному семейству. К объект изучения нами была выбрана бета-субъединица бактериальной РНК-полимеразы (RPOB_*), которая отвечает за катализ и неспецифическое взаимодействие с ДНК.
Из базы Swiss-prot были скачаны аминокислотные последовательности этой субъединицы 10 видов бактерий со следующими ID:
RPOB_*, где вместо * - (BACSU, AERS4, HAEIG, CLOBL, THEPX, RICPR, ECOLI, DESHD, MYCTU, LISMH)
Далее последовательности были выравнены программой muscle: выравнивание
Для составления паттерна были выбраны позиции 624 - 638 в полученном выравнивание.
Составленный паттерн:

 D-D-I-D-H-[LF]-G-N-R-R-[LIV]-R-[ST]-V-G

По составленному паттерну мы проводили поиск белков того же семейства по файлу bacteria-sw.fasta, содержащему все записи белковых бактеральных последовательностей из Swiss-prot. Всего записей с мнемоникой RPOB_* в нем оказлось 735. Для этого пользовались программой fuzzpro, подавая ей на вход файл bacteria-sw.fasta и наш паттерн, и получая на выход файл со всеми находками паттерна в последовательностях.
Всего таких последовательностей нашлось 455 из которых 447 с мнемоникой RPOB, что сильно меньше чем последовательностей бета-субъединицы в изначальном файле. Еще 8 последовательностей было найдено со схожей мнемоникой: RPOBC, RPOB1, RPOB2, RPOB3 и RPOB4. В целом это те же бета-субъединицы, поэтомоц неправильных находок у нас нет. Однако расстравает, что не нашлось еще 288 последовательностей. Попробуем усовершенствовать наш паттерн. Мы заменили все неоднозначности на x:
 D-D-I-D-H-x-G-N-R-R-x-R-x-V-G
И получили 612 находок, из которых 604 с мнемоникой RPOB и еще 8 со схожей мнемоникой. За счет ослабления паттерна нам получилось найти сильно больше верных последовательностей.
Далее мы решили укоротить наш паттерн в 1.5 раза, если укорачивать равномерно с обоих концов или с правого конца, то прирост в записях наблюдается небольшой, в пределах 10 штук, однако укорочение паттерна слева на 5 позиций позволило обнаружить 669 находок, что уже ощутимо больше чем 612. При этом хоть все находки оказывались правильными (с мнемоникой RPOB или схожей). Дальнейшее укорочение паттерна, хоть и позволяла получить больше записей, но уже обнаруживало много неверных находок (с другой мнемоникой).