Практикум 12. BLAST

Практикум подразумевал работу в сервисе BLASTp на сайте NCBI. Сервис позволяет найти для конкретной последовательности белка гомологичные в базах данных и построить карту выравнивания.

Поиск гомологичных белков и построение выравнивания

В сервисе BLAST было выбрано подразделение protein. Там вводился идентификатор последовательности пектинестеразы в swissprot (P0C1A9). Поиск так же проводился по базе данных swissprot. Поиск ограничивался 20000 последовательностями. Остальные параметры брались по умолчанию. В результате были найдены 99 предположительно гомологичных последовательностей.

Среди последовательностей были выбраны 8, с достаточно высоким покрытием (coverage) и принадлежащим разным организмам: P0C1A9.1 (D. dadantii), P0C1A8.1 (Erwinia chrisanthemi), O22149.2, Q4PSN0.1(Arabidopsis thaliana), P83218.1 (D. carota), B2VPR8.1 (O. europaea), P41510.1 (B. napus), A1DBT4.1 (Aspergillus fisheri). Последовательности для выравнивания выбирались с различными evalue.

После построения выравнивания в программе Jalview оказалось, что 2 последовательности (Q4PSN0.1, A1DBT4.1), обладавшие самым высоким evalue, сильно выбивались из общей картины выравнивания. После их удаления выравнивание стало удовлетворять критериям гомологичности. Так же для улучшения этого выравнивания была удалена последовательность B2VPR8.1. Надо сказать, что удаление этих последовательностей было продиктовано и соображениями филогенетической истории организмов: бактерии родов Dickeya и Erwinia поражают в первую очередь крестоцветных (арабидопсис, морковь, рапс), поэтому у них в первую очередь и появились ингибиторы к их белкам. Неродственны им олива из семейства масличных и уж тем более гриб аспергилл.

Построение карты выравнивания

В сервисе BLASTp была включена опция "Align two or more sequences". Далее из предложенного списка было выбрано 2 последовательности: A0A067TGM8_GALM3 (Galerina marginata) и J4GH25_9APHY (Fibroporia radiculosa), соответствующие белкам дигидронеоптерин альдолазы двух агарикоидных грибов. Таким образом была получена карта выравнивания.

hit_matrix.png

По горизонтальной оси отображается первая последовательность, по вертикальной - вторая. Хорошо видно, что во второй последовательности (по сравнению с первой) в самом начале произошла крупная делеция, также видны более мелкие делеции примерно на 50, 85 и 130 местах второй последовательности.

Стало понятно, что карта выравнивания помогает отследить только достаточно крупные изменения в последовательности. Если взглянуть на выравнивание, то становится понятно, что мутации вроде замен не отображаются на выравнивании. Отрезки прямых линий изображают даже те фрагменты выравниваний, в которых очень малы similarity и identity.

alignment_pr12.png

Также понятно, что карты выравниваний почти не несут полезной информации, если последовательности негомологичны: сходство отрезков выравнивания может быть чисто случайным.

Игры с BLAST

Предлагалось вспомнить детство и ввести любую не соответствующую никакому белку последовательность аминокислот. Нами была взята такая последовательность:

>sum41_88

andstillIfeellikeaprisxnertrappedinsidethisbrxkenwxrldwhileimplayingthevictimagainrunningincircles

Далее производился поиск в BLASTp с разными параметрами. Стандартными параметрами считались: max target sequences 20000, expect threshold 100, word size 3, matrix BLOSUM62. При них найдено 53 последовательности за 20 сек. Далее параметры варьировались.

При word size 6 ничего не нашлось за 10 сек. От длины слова зависит работа алгоритма: алгоритм смотрит все слова длины 3 в последовательности и ищет все последовательности, где эти слова есть. Чем меньше слово, тем дольше работает алгоритм, но тем меньше вероятность пропустить гомологичные последовательности.

При expect threshold 10 нашлось 4 последовательности за 18 сек. Этот параметр представляет собой ограничение на E-value: выводятся только последовательности с меньшим значением E-value.

При matrix PAM250 нашлось 33 последовательности за 31 сек. По матрице идёт расчет веса выравнивания (score). От сложности матрицы и значений в ней зависит и порядок выведения последовательностей алгоритмом.

Когда у этой матрицы PAM250 взяли gap costs "existence: 15; extension: 3" вместо стандартных для неё 14 и 2, то нашлась 51 последовательность за 38 сек. От цены гэпов зависит вес выравнивания.

При стандартных параметрах и опции "Low complexity regions" (регионы низкой сложности) нашлось 7 последовательностей за 28 сек. Опция отбрасывает последовательности, выравнивания с которым и предположительная гомология сомнительны из-за низкого уровня сложности выравненных участков: совпадения близки к случайным.

Таким образом, меняя параметры, можно сильно влиять на результаты работы алгоритма выдачи последовательностей в зависимости от нужд пользователя и конкретной последовательности.

Множ. выравниваниеВыравнивание (без оливки)Таблица последовательностей

НАЗАД