Семейства белковых доменов

Семейства белковых доменов

Задание 1

Определите, какие домены Pfam встречаются в последовательности вашего белка.

Был произведен поиск в Pfam и найдено одно семейство, PF00793, включающее Phospho-2-dehydro-3-deoxyheptonate aldolase и 2-dehydro-3-deoxyphosphooctonate aldolase (белок запроса). Сохранен seed выравнивания семейства.

Seed выравнивания

Задание 2

Сохраните консенсусную последовательность и LOGO одного блока в полученном выравнивании.

Была использована программа cons на сервере http://emboss.bioinformatics.nl/, был сохранен консенсус, а также был выбран блок 248-254 в полученном выравнивании.

Для блока 248-254 был построен LOGO.

картинка загружается...

Конcенсус

Jalview project

Задание 3

Какая последовательность наиболее похожа на консенсусную?

C помощью программы task_3.sh, которая вызыват needle и для каждого выравнивания последовательности Consensus и последовательности из PF00793_seed.txt пишет score,было установлено, что последовательность AROG_YEAST имеет наибольшую схожесть с консенсусной, cо score равным 261.5 .

Задание 4

Построить сильный и слабый паттерны для одного из блоков или кластеров выравнивания и найти число последовательностей, содержащих мотив с данным паттерном, в SwissProt.

Для выбранного кластера с координатами 248-299 был посторен сильный паттерн и слабый паттерн (вручную, смотря на выравнивание в Jalview).

Для этого задания был выбран именно кластер, а не просто блок, потому что небольшой по размеру блок не дает достаточно сильного паттерна, чтобы найти только гомологов белка.

Сильный паттерн - тот, с помощью которого, в идеале, находятся только гомологичные последовательности. Для его составления можно использовать много условий на колонки. Тем не менее, условия должны быть оправданы дополнительными соображениями - свойствами аминокислотных остатков, правильностью выравнивания, возможными удлиннениями гэпов и др. Плата за силу - возможный пропуск находок.

Слабый паттерн - тот, с помощью которого, в идеале, находятся все мотивы. Плата за слабость - возможность значительного числа ложных находок.

Сильный паттерн: [ILV]-[MVIFL]-[VAIF]-D-[CYAFGVIP]-[ST]-H-x(12,23)-[VILM]-x(3)-[VAST]-x(3)-[LVIMY]-[ASKT]-x-[GK]-x(0,3)-[LIVAT]-x-[GS]-[VLI]-[FIMLYH]-[VIAM]-E

Слабый паттерн: [IVL]-[MVIFLAG](2)-D-x-[ST]-H-x(26,41)-[GS]-[VLI]-[FIMLYH]-[VIAM]-E

Сильный паттерн построен путем написания для каждой позиции всех возможных вариантов аминокислот, встречающихся в множественном выравнивании.

Слабый паттерн был написан при помощи такой схемы: если в позирции в разных последовательностях встречаются аминокислоты, обладающие определенным свойством - например алифатичные I и L, то множество дополняется до всех, обладающих этим свойством - V,I,L(алифатичные).

Если же в одной позиции встречаютс аминокислоты, обладающие совершенно не сходными свойствами (P, V, R), то на эту позицию ставится X.

Слабый паттерн в первом столбце совпадает с сильным (т.е. включает только алифатичные аминокислоты), а в 2-ом и 3-ем столбцах допускает также GA, и GM, соответственно, которых не было в выравнивании, но которые тоже являются гидрофобными неполярными аминокислотами. Кроме того, слабый паттерн допускает большую вставку произвольного куска переменного размера, x(26,41).

Для поиска использован сервис http://prosite.expasy.org/scanprosite/. Выбрана опция Option 2 - Submit MOTIFS to scan them against a PROTEIN sequence database.

Число последовательностей, содержащих мотив с сильным паттерном: 168 находок из 168 последовательностей. Все находки относятся к Phospho-2-dehydro-3-deoxyheptonate aldolase (близкому родственнику моего белка) или к 2-dehydro-3-deoxyphosphooctonate aldolase (Phospho-2-dehydro-3-deoxyoctonate aldolase)- это мой исходный белок. Поскольку данный паттерн нашел только гомологичные последовательности, паттерн является сильным.

Число последовательностей, содержащих мотив со слабым паттерном: 234 находок в 234 последовательностях. Среди находок есть не только два класса, к которым относятся находки из первого запроса, но и другие, например Proline tRna ligase.

Оба паттерна находят все последовательности из исходного выравнивания.

Задание 5

Найдите мотивы в последовательностях seed семейства при помощи программы MEME.

Использован сервис http://meme-suite.org/tools/meme

Использован поиск до трех мотивов в каждой последовательности и опция Any number of repetitions.

Ссылкка на фаста-файл с последовательностями

Запрос на MEME