Учебная страница курса биоинформатики,
год поступления 2012
Практикум12. PSI-BLAST
Результат - на сайте:
- ID белка
- Таблица - протокол итераций PSI-BLAST (см. ниже)
Выравнивание последовательностей построенного семейства гомологов (проект JalView)
- Комментарии
1. Для данной последовательности белка составьте семейство гомологов, пользуясь PSI-BLAST
Выберите случайную последовательность из списка.
- Поиск по банку Refseq proteins
Если хороших находок в Refseq нет, то можно использовать банк nr |
я обнаружил, что последнее обновление Refseq было в 2008 |
После каждой итерации заполните строку таблицы
- Желательный результат: стабилизация результата очередной итерации, т.е. список находок выше порога совпадает со списком последовательностей, поданных на вход. Если не удалось стабилизировать результат, то выполните не менее 5-и итераций
- Качество результата также определяется ступенькой E-value между худшей "правильной" находкой и "лучшей" неправильной: чем больше эта ступенька, тем вероятнее, что находки составляют семейство гомологичных белков
- При необходимости, можно изменить порог E-value отсечения хороших находок (E=0.005 по умолчанию)
- Сохраните выравнивание
Дополнительное задание
2. Сравните выравнивание семейства домена, имеющегося в данной последовательности, с полученным выравниванием
Напишите комментарии:
- Подтверждают ли данные Pfam правильность состава вашего семейства?
- Имеются ли последовательности из вашего семейства, включающие долее одного домена Pfam?
Ответ
Q47404
PF07388
54
P18196
PF08792
90
Q8RL96
PF01721
138
Q8QLF5
PF05968
118
Q04719
PF06061
63
Q05121
PF05311
50
Q3SXS7
PF09256
31
Q9NXZ6
PF06211
68
F1SRL9
PF05466
50
Q246C0
PF14777
68
Q1AHR3
PF15318
22
Q3U7X3
PF06773
63
Q9QCL4
PF06515
40
Q65664
PF01318
16
F6STE1
PF15367
23
При поиске (см. указания), кроме банка поиска (Swiss-Prot) и программы (PSI-BLAST), измените ещё значение параметра "Max target sequences" с 500 на 5000, остальным параметрам оставьте значения по умолчанию. Выполните до пяти итераций, пока появляются новые последовательности выше порога на E-value 0,005; если же и после пятой итерации список не стабилизировался, можно на этом остановиться.
Заполните таблицу и напишите краткие выводы: как ведут себя итерации PSI-BLAST для этих последовательностей? Что (на качественном уровне) можно сказать о "разрыве" между значениями E-value у худшей находки выше порога и лучшей – ниже порога: как он меняется от итерации к итерации в каждом из случаев?
ID белка AC белка Число итераций Для первой итерации Для последней итерации Число находок выше порога (0,005) Худшее E-value выше порога Лучшее E-value ниже порога Число находок выше порога (0,005) Худшее E-value выше порога Лучшее E-value ниже порога
Рекомендуется также проследить за изменениями значения E-value у самой лучшей находки (т.е., поданного на вход белка) и у какой-нибудь "средней" находки (например, той, которая при первой итерации была чуть выше порога).
Для той последовательности, для которой список не стабилизировался после пятой итерации, проведите поиск снова, изменив порог с 0,005 на 0,001. (Для разнообразия можно воспользоваться сервисом PSI-BLAST на EBI: http://www.ebi.ac.uk/Tools/psiblast/, где порог 0,001 стоит по умолчанию). После каждой итерации обращайте внимание на описания находок выше и ниже порога и на значения e-value. На какой итерации теперь стабилизировался список? Постарайтесь объяснить, почему это произошло при пороге 0,001 и не произошло при пороге 0,005.
Как вы думаете, какое максимальное значение порога в данном конкретном случае можно поставить, чтобы итерации вели себя так же, как при пороге 0,001?