Практикум по blastp

Гомологи глицин-дегидрогеназы родококка

Продолжим изучение Rhodococcus fascians, сосредоточив своё внимание на его глицин-дегидрогеназе (accession:Q8G9M2). Этот фермент катализирует декарбоксилирование глицина и перенос оставшейся части молекулы на липоевую кислоту, в результате чего связь пятичленный цикл разрушается по S-S связи. Кислота при этом находится на лизиновой "ручке", похожая конструкция есть в пируватдегидрогеназном комплексе.

Зададим blastp ряд параметров:

Выбрав несколько белков из выдачи blast, строим множественное выравнивание. Низкое сходство сравниваемых последовательностей объясняется использованной БД: протеомы ближайших родственников R. fascians состоят целиком из белков, которые доселе не были аннотированы вручную и лежат в TrEMBL.

Полипротеин полиовируса

В саморазрезающемся полипротеине полиовируса Poliovirus type 1 strain Sabin (AC, ID=P03300) нас интересует C-концевой фрагмент (1749-2029 а/к), являющий собой РНК-зависимую РНК-полимеразу (биология этого полипротеина рассмотрена в книге "Биология микроорганизмов по Броку"). Множественное выравание этого участка большого белка с некоторыми результатами поиска blastp показывает высокую консервативность полипротеина. Это логично, поскольку полипротеин является единственным транскриптом полиовируса, и стабильность последовательности позволяет ему сочетать в себе несколько функций (структурная, полимеразная, гидролитическая).

Нехитрая оценка доли вирусных белков в swiss-prot

Вернёмся к выдаче BLAST'а по полипротеину и попробуем задать такой же запрос, но ограничим сферу поиска указанием таксона "Viruses". Итак, две ссылки: - поиск по всему swiss-prot'y и только по вирусам оттуда . Обратив внимание на находки, e-value для которых не является машинным нулём, получаем, что в среднем эта величина уменьшилась в 30 раз. Обратимся к теореме Карлина: поскольку для конкретной находки в случае ограничения таксоном является лишь изменение размера базы данных, делаем вывод, что swiss-prot на 3,33% заполнен вирусными белками. Заметим, что оценка дейстивтельно хорошая: мы понимаем это, находя запросами (reviewed:true) и (taxonomy_id:10239) AND (reviewed:true) реальную долю вирусных белков в swiss-prot - 17320/569516 ~ 0,0304.

BLAST на NCBI или на Uniprot?

BLAST от NCBI позволяет настраивать большее количество параметров (например, длину слова, в отличие от юнипротовского) и продоставляет доступ к спектру сильно отличающихся БД, а запросы при его использовании меньше находятся в очереди. Эта реализация алгоритма более универсальна.
BLSAT от Uniprot наиболее удобен, если базой данных, по которой осуществялется поиск, относится к UniProt. С меньшими возможностями настройки, этот тул гораздо удобнее для обращения с такими сущностями, как Proteomes или Clusters.