Домены, паттерны, профили
Работа с базами данных:Prosite, Pfam, InterPro
Краткое описание БД
Prosite
http://kr.expasy.org/prosite/Основные понятия:
Сайт - небольшой (несколько остатков) участок последовательности, отвечающий за выполнение функции белка.
Мотив - набор консервативных остатков, важных для функции белка и расположенных на определенном (обычно коротком) расстоянии друг от друга в последовательности.
Паттерн - регулярное выражение, допускающее несколько определенных вариантов прочтения в виде аминокислотной последовательности, например: A-x(2)-[DE]-x-N (A-2 любые кислоты-либо D, либо E-любая-N)
Профиль PSSM - матрица переходных вероятностей, построенная по локальному выравниванию нескольких последовательностей
Prosite - база данных, включающая в себя все найденные в изученных последовательностях биологически значимые сайты, паттерны и профили, т. е. функциональные участки белка. Документ Prosite может быть представлен либо в виде паттерна (для сайтов, где мало остатков) или профиля PSSM (для мотивов, выводимых из большего числа последовательностей - паттерн там не дает полной картины). Моя задача - обнаружить в последовательности репрессора синтеза пуриновых нуклеотидов PurR из E.coli все возможные паттерны.
Pfam
http://www.sanger.ac.uk/Software/Pfam/index.shtmlОсновные понятия:
Домен - глобулярная структурная единица белка, способная к относительно самостоятельному сворачиванию, относительно консервативная и выполняющая свою функцию
ПрофильHMM - ???
Pfam - это коллекция доменов (т. е, в отличие от Prosite, структурных единиц белка, к тому же всегда довольно больших), встречающихся в изученных белках, а также множественных выравниваний, семейств и профилей-HMM. Моя задача - описать доменную структуру белка PurR при помощи БД Pfam.
Interpro
http:\\ebi.ac.uk\interproЭта база данных создана не так давно и представляет из себя объединенную систему. Она содержит:
Свойства белка PurR: