Учебная страница курса биоинформатики,
год поступления 2016
Практикум 6
1. PSI-BLAST
Для данной последовательности белка составьте семейство гомологов, пользуясь PSI-BLAST
Выберите случайный идентификатор (AC) из списка.
- Зайдите на страницу белкового BLAST в NCBI, внесите выбранный AC в окошко, выберите PSI-BLAST и поиск по банку Swiss-Prot.
После каждой итерации заполняйте строку таблицы.
- Желательный результат: стабилизация результата очередной итерации, т.е. список находок выше порога не поменялся по сравнению с предыдущей итерацией. Если не удалось стабилизировать результат, то выполните не менее пяти итераций.
- Качество результата также определяется "ступенькой" E-value между худшей "правильной" находкой и "лучшей" неправильной: чем больше разница, тем вероятнее, что находки составляют семейство гомологичных белков.
- При необходимости можно изменить порог E-value отсечения хороших находок (E=0.005 по умолчанию).
В отчёте приведите: выбранное AC, что это за белок (организм, функция), таблицу итераций, комментарии (сошлось/не сошлось, если нет, то почему, если да, то хорошее ли семейство и т.п.)
(**) Разберитесь, как запускать PSI-BLAST из командной строки
Читайте psiblast -help. Если удастся разобраться и провести содержательный поиск, опишите свой опыт.
2. Prosite
Цель задания: уточнить паттерн одного из семейств белков так, чтобы он описывал не все белки данного семейства, а только белки протеобактерий.
Входные данные: выравнивание белков протеобактерий из практикума 2 и паттерн из банка Prosite, описывающий данное семейство.
Этапы работы:
Найдите в банке Prosite (https://prosite.expasy.org/ ) паттерн или паттерны, описывающие выбранное вами семейство белков. Для этого нужно просканировать одну из последовательностей семейства (например, из E.coli). См. подсказки. В отчёте приведите название семейства в Prosite и сам паттерн. Если паттернов несколько, приведите все, а для дальнейшей работы выберите один. Если паттернов нет, то придётся либо: а) взять другое семейство; б) создать паттерн самостоятельно.
Откройте выравнивание белков в Jalview. Годится то выравнивание из 7–8 белков, по которому вы строили дерево.
Можно выровнять белки из всех 18 бактерий, упомянутых в задании 1. Тогда: а) составлять паттерн будет труднее; б) результат будет лучше; в) мы дадим за это дополнительный балл.
Найдите, какому месту на выравнивании соответствует паттерн из Prosite.
- Сделайте паттерн более строгим:
- Если в паттерне стоит, например, [AGST], а во всех ваших белках в этой позиции стоят только S или T, замените в паттерне эту позицию на [ST]
- Если в паттерне стоит x, а в выравнивании эта позиция содержит одну букву или две-три близкородственные (например, I, V и L), замените позицию на букву или соответствующий набор (например [ILV]
- Если рядом с паттерном в выравнивании есть консервативная колонка, добавьте позицию к паттерну
- Найдите все соответствия паттерну в банке Swiss-Prot:
Со страницы https://prosite.expasy.org/ пройдите по гиперссылке ScanProsite (вверху).
- Выберите Option 2
- Внесите паттерн в окошко. Внизу страницы (где "STEP 3") выберите Output format: Matchlist (просто список находок). Область поиска ("STEP2") не меняйте, это должен быть Swiss-Prot. Запустите поиск и дождитесь результата. Сохраните список находок в файл.
Теперь нужно сравнить список находок с "правильным" списком, то есть со списком всех представителей данного семейства белков из Proteobacteria, имеющихся в Swiss-Prot. Чтобы получить "правильный" список, зайдите на сайт Uniprot, там в "Advanced" и задайте поиск по Entry Name [ID] на начальные буквы — мнемонику семейства, включая подчёркивание (например, для семейства Пептидил-тРНК гидролаз внесите в окошко PTH_*), и по Taxonomy [OC] на таксон Proteobacteria. На странице с результатом скачайте список находок (Download → List).
- Средствами Python или Excel сравните два списка: белков, найденных вашим паттерном, и белков протеобактерий из семейства. Приведите три числа: число истинных находок (True positives, TP), то есть размер пересечения списков, число ложных находок (False positives, FP), то есть число тех белков, которые нашлись паттерном, но не входят в правильный список, и число ненайденных (False negatives, FN).
- (*) Усилия по улучшению паттерна (увеличению TP и уменьшению FP и FN) приветствуются. Чтобы понять, какие изменения в паттерне способны уменьшить FP, полезно подравнять к белкам протеобактерий белки того же семейства из каких-нибудь других бактерий и поискать позиции паттерна, по которым можно отличить именно протеобактерии. Чтобы увеличить TP за счёт FN, подравняйте к своему выравниванию какие-нибудь ненайденные белки из "правильного" списка и посмотрите, почему они не нашлись. Разумеется, все стадии должны быть задокументированы (например, можно привести таблицу из четырёх столбцов: паттерн, TP, FP, FN).