Учебная страница курса биоинформатики,
год поступления 2011
Занятие 7. BLAST
Ваша рабочая директория — H:\Term2\Block2\Practices\Pr7.
Отчёт должен появиться на вашем веб-сайте к следующему занятию (28 марта для группы 102, 30 марта для группы 101).
Обязательные задания
При выполнении упражнений пользуйтесь web-интерфейсом к BLASTP на сервере NCBI: http://blast.ncbi.nlm.nih.gov/, далее в разделе Basic BLAST переходите по гиперссылке protein blast. Не забывайте указывать нужный банк для поиска!
На сайте NCBI доступны разнообразные учебники по BLAST. См. также веб-курс по BLAST.
1. Поиск гипотетических гомологов изучаемого белка в разных банках
Подайте на вход программе BLASTP код доступа изучаемого белка, проведите поиск гомологов в банке Swiss-Prot и заполните первый столбец таблички. Затем проведите поиск по банкам PDB (Protein Data Bank proteins) и "nr" (Non-redundant protein sequences) и заполните остальные столбцы.
Внимание: для этого надо изменять значение параметра database, по умолчанию стоит банк "nr".
Таблица 1. Результаты поиска гипотетических гомологов белка XXXX_BACSU
(html таблица для копирования)
|
Поиск по Swiss-Prot |
Поиск по PDB |
Поиск по "nr" |
1. Лучшая находка (в принципе должна соответствовать заданному белку) |
|||
Accession |
|
|
|
E-value |
|
|
|
Вес (в битах) |
|
|
|
Процент идентичности |
|
|
|
2. Сколько хороших кандидатов в гомологи найдено? (число находок в списке описаний с E-value < 1e-10) |
|
|
|
3. "Худшая из удовлетворительных" находка (последняя в выдаче с E-value < 1) |
|||
Номер находки в списке описаний |
|
|
|
Accession |
|
|
|
E-value |
|
|
|
Вес (в битах) |
|
|
|
% идентичности |
|
|
|
% сходства |
|
|
|
Длина выравнивания |
|
|
|
Координаты выравнивания (от-до, в запросе и в находке) |
|
|
|
Число гэпов |
|
|
|
В кратком комментарии к таблице
- ответьте, удалось ли найти исходный белок в Swiss-Prot и "nr", а его структуру в PDB?
сравните число явных гомологов (E-value < 1e-10) при поиске по разным БД и поясните возможные причины различий;
- Сколько всего находок и каков E-value самой последней находки? Чем в вашем случае было лимитировано число находок: значением E-value или заданным по умолчанию предельным размером выдачи?
См. подсказки.
2. Поиск гипотетических гомологов изучаемого белка с фильтром по таксонам
Ваша задача — для изучаемого белка 'B. subtilis' найти лучшего гомолога в организмах таксона, филогенетически как можно более далекого.
Для исследования предлагаются следующие таксоны:
'Eukaryota' (другое царство);
'Actinobacteria' (другой отдел того же царства бактерий);
'Clostridia' (другой класс того же отдела Firmicutes);
'Lactobacillales' (другой порядок того же класса Bacilli);
'Listeriaceae' (другое семейство того же порядка Bacillales);
'Geobacillus' (другой род того же семейства Bacillaceae);
'Bacillus anthracis' (другой вид того же рода).
Проверяйте на наличие гипотетического гомолога (критерий: E-value<0,001) в порядке приближения к 'Bacillus subtilis'. Как только найден первый такой гомолог, прекращайте поиск. Опишите результаты поиска по той же схеме, по которой описывали "худшую из удовлетворительных" находку в табл. 1.
3. Сравнение выравниваний, выданных программой BLASTP, с оптимальными глобальным и локальным выравниваниями.
Выберите одно из выравниваний BLASTp, полученных при выполнении предыдущего задания. Сравните это выравнивание
а) с оптимальным частичным выравниванием;
б) с оптимальным полным выравниванием последовательностей тех же белков.
Оптимальные выравнивания получите при параметрах, используемых по умолчанию в BLASTP. Укажите в отчёте, какими программами и с какими параметрами вы пользовались.
В отчете приведите 3 разных выравнивания и краткий комментарий, в котором опишите различия между выравниваниями.
См. подсказки.
Если все обязательные задания сделаны, можете приступать к дополнительным заданиям.