Практикум 12: BLAST

Таблица с результатами поиска

Описание возможностей BLAST

Enter Query Sequence - вводится ID последовательности или сама последовательность

Query subrange - диапозон (от и до чего) для выравнивания

Choose Search Set - выбор базы данных, в которой ищем соответствия Также можно исключить или обособить белки определенного организма в поиске и исключить несколько классов последовательностей.

Program Selection - выбор нужного алгоритма - зависит от цели поиска.

General Parameters

Max target queries -сколько находок вывести на экран

Short queries - подогнать длину слова, если введенная последовательность слишком короткая.

Expect threshold (E-value) - математическое ожидание случайно получить данное выравнивание. Зависит от размера БД , длины последовательности и схожести двух последовательностей. Чем меньше Е, тем более значимо сходство. Можно задать порог значимости выводимых последовательностей. Чем меньшее число указано, тем больше последовательностей программа выкинет.

Word size - длина части последовательности, по которой проводиться первичный поиск, то есть сначала выравниваются “слова” по 6 аминокислот, своего рода локальные выравнивания.

Max matches in a query range - ограничивает количество совпадений между искомыми и исходной последовательностью. Если указан "0", то нет ограничений (рассматриваются последовательности с любым количеством совпадений).

Scoring Parameters

Matrix - матрица замен, по которой вычисляется вес двух последовательностей.

Gap costs - штраф за GAP в матрице

Compositional adjustments – позволяет масштабировать E-value относительно найденной выборки из последовательностей, то есть считает более относительные Е вместо глобальных. Помогает бороться с участками малой сложности.

Вероятные гомологи

В этом выравнивании представлены 9 последоватедльностей, удовлетворяющие необходимым требованиям(включая 1 последовательность с конца, взятую для сранения):содержит участок выравнивания, начинающийся и заканчивающийся абсолютно (100%) консервативной позицией, длиной более 6 колонок, без колонок с гэпами, в котором высокая плотность консервативных позиций

Flowers in Chania Выравнивание

Выравнивание двух последовательностей

Выбранные последовательности: U1LPR7_9MICO по оси абсцисс и S8F0X9_FOMPI по оси ординат. На карте сходства можно обнаружить дупликацию участка в белке S8F0X9. Кроме того, в начале графика можно увидеть делеции в этом же белке и схожесть белков (с 57 по 101 а.о. в S8F0X9 и с 136 по 178 а.о. в U1LPR7).

Игры с BLAST

Фраза: "random snails gonna bust her scales"

Находки

1) При ожидаемом E-value = 100000 и Word Size = 6 была найдена только одна последовательность - ID: Q048T9.1 и при дальнейшем увеличении Е новых последовательностей не находилось. 2) При уменьшении Word Size количество последовательностей достигло максимума(20000) при 2, но при этом есть последовательности с полным покрытием и минимальное E-value = 19. Это можно обьянить тем, что соответствий по меньшему количеству букв всегда будет больше ( событие совпадения у последовательности малого количества букв более вероятно).