Учебная страница курса биоинформатики,
год поступления 2012
Указания
Задание 1
Число букв в SwissProt см на странице Uniprot (см. также в файле со списком слов)
- Частоты аминокислотных остатков см на той же странице, п.6 (см. также в файле со списком слов)
- Число встреч слова в банке можно определить с помощью сервиса Prosite
Синтаксис паттернов
- A-P-P-L-E ищет слово apple в последовательностях белков;
- [ALK] — в данной позиции разрешены только те остатки, которые перечислены в квадратных скобках;
- x(3) — интервал в 3 любых остатка;
- x(2,5) — интервал от двух до пяти любых остатков
- пример: K-L-x(1,2)-[ST]-N-K
Подробнее о правилах написания патернов см. Pattern syntax.
Задания 2 и 3
Идея паттерна: глядя на выравнивание, написать такие условия на последовательность чтобы (почти) все последовательности, удовлетворяющие паттерну, были гомологичны последовательностям из выравнивания. Поэтому паттерн, построенный по выравниванию, должен находить все последовательности из выравнивания!
В идеале условия должны быть наложены на аминокислотные остатки активного центра, другие функционально выжные остатки.
На практике о функциональной важности судят по консервативности позиции в выравнивании. (Функция остатка при этом остается неизвестной.) Поэтому входное выравнивание должно содержать достаточно разошедшиеся последовательности. Только в этом случае можно ожидать, что консервативные позиции - действительно, функционально важные. (Если в выравгнивании 90% консервативых позиций, то скорее всего, послдовательности взяты из близких организмов, и консервативность объясняется просто малым числом произошедших мутаций.)
"Сильный" паттерн - тот, в который включены много условий; его роль - принаходить входные последовательности и последовательности, с большой долей уверенности гомологичные данные. При этом может пропускать много других гомологов.
"Слабый" паттерн - тот, в котором мало условий; он находит много последовательностей. Однако уверенности в том, что все находки - действительно, последовательности гомологичных белков, меньше, чем в случае сильного паттерна. Зато можно ожидать, что меньше гомологичных последовательностей пропущено.
Проверка находок паттерна состоит в построении выравн ивания всех найденных последовательностей. В авыравнивании содержится больше информации, позволяющей обосновать гомологичность или не гомологичность последовательностей.
Технология составления паттернов детально описана в документации банка Prosite (копия)