Практикум по blastp
Гомологи глицин-дегидрогеназы родококка
Продолжим изучение Rhodococcus fascians, сосредоточив своё внимание на его глицин-дегидрогеназе (accession:Q8G9M2). Этот фермент катализирует декарбоксилирование глицина и перенос оставшейся части молекулы на липоевую кислоту, в результате чего связь пятичленный цикл разрушается по S-S связи. Кислота при этом находится на лизиновой "ручке", похожая конструкция есть в пируватдегидрогеназном комплексе.
Зададим blastp ряд параметров:
- Expected treshold=0.05 - отсекаем находки, e-value которых больше.
- word_size=2 - длина слова, с которого алгоритм начнёт тянуть выравнивание. Чем длиннее слово, тем быстрее работает алгоритм, но, поскольку до среды ещё есть время, зададим длину слова минимально возможной, чтобы получить наиболее качественные результаты.
- Max target sequences - пусть бласт выведет первые 250 находок (сортировка по умолчанию проведётся по e-value
- Матрица а/к замен - BLOSUM62, эмпирическое доверие
- Gap costs - 11 за открытие инделя, 2 за продолжение
- База данных - Swiss-prot
Выбрав несколько белков из выдачи blast, строим множественное выравнивание. Низкое сходство сравниваемых последовательностей объясняется использованной БД: протеомы ближайших родственников R. fascians состоят целиком из белков, которые доселе не были аннотированы вручную и лежат в TrEMBL.
Полипротеин полиовируса
В саморазрезающемся полипротеине полиовируса Poliovirus type 1 strain Sabin (AC, ID=P03300) нас интересует C-концевой фрагмент (1749-2029 а/к), являющий собой РНК-зависимую РНК-полимеразу (биология этого полипротеина рассмотрена в книге "Биология микроорганизмов по Броку"). Множественное выравание этого участка большого белка с некоторыми результатами поиска blastp показывает высокую консервативность полипротеина. Это логично, поскольку полипротеин является единственным транскриптом полиовируса, и стабильность последовательности позволяет ему сочетать в себе несколько функций (структурная, полимеразная, гидролитическая).
Нехитрая оценка доли вирусных белков в swiss-prot
Вернёмся к выдаче BLAST'а по полипротеину и попробуем задать такой же запрос, но ограничим сферу поиска указанием таксона "Viruses". Итак, две ссылки: - поиск по всему swiss-prot'y и только по вирусам оттуда . Обратив внимание на находки, e-value для которых не является машинным нулём, получаем, что в среднем эта величина уменьшилась в 30 раз. Обратимся к теореме Карлина: поскольку для конкретной находки в случае ограничения таксоном является лишь изменение размера базы данных, делаем вывод, что swiss-prot на 3,33% заполнен вирусными белками. Заметим, что оценка дейстивтельно хорошая: мы понимаем это, находя запросами (reviewed:true) и (taxonomy_id:10239) AND (reviewed:true) реальную долю вирусных белков в swiss-prot - 17320/569516 ~ 0,0304.