BLAST

1. Характеристики списка находок

Для этого и последующих заданий в качестве белка, гомологи которых искались в BLAST, использовался ALX08859.1.

♦ Всего находок - 36

♦ E-value всех 36 находок меньше 0.001 (минимальное e-value=1e-6), что говорит о том, что эти находки относительно удачные

♦ Максимальное e-value=6e-112, принадлежит белку Q8U194, и, как и предолагалось, вес выравнивания этого белка с моим наибольший их всех (837). Вес этого выравнивания и большое значение e-value говорят о том, что этот белок наиболее гомологичен моему

♦ Количество находок меньше порога на количество находок (100), то есть их число не ограничено этим порогом. Если же мы попробуем увеличить порог на значение expect до, например, 100, то список пополнится еще двумя находками с e-value равным 51 и 70. Таким образом, список находок лимитирован порогом на e-value.

2. Изменение длины слова (6→2)

♦ Общее число находок - 95

♦ E-value 63 находок меньше 0.001

♦ Максимальное e-value осталось прежним (6e-112)

♦ Как и при длине слова 6, список находок оказался лимитирован порогом на E-value

♦ Для следующего задания взят белок Q97FS6; его e-value=3e-25. Таксонмия организма, содержащий данный белок: Bacteria › Firmicutes › Clostridia › Clostridiales › Clostridiaceae › Clostridium › Clostridium acetobutylicum.

3. Изменение объёма поиска

Поиск происходил в пределах типа Firmicutes. E-value находки с белком Q97FS6 равен 3e-26, то есть уменьшился в 10 раз по сравнению с e-value этого белка при поиске во всем банке. Это объяснется тем, что мы уменьшили объем поиска, ограничив его длиной всех последовательностей, встречающихся среди представителей типа Firmicutes. Иначе говоря, мы уменьшили коэффициент n в формуле поиска e-value (E-value=kmn·e-λS), и, соответственно, уменьшилось значение e-value. Но, как мне кажется, разница в 10 раз в значениях e-value в данном случае не так существенна, и можно утверждать, что количество белков из типа Firmicutes в базе данных значительно; по формуле получается, что объем последовательностей из типа Firmicutes составляет одну десятую от общего объема базы данных.

Также стоит отметить, что вес и обычный, и битовый при изменении объема поиска не меняются, так как вес зависит только от матрицы и штрафов за гэпы (эти параметры мы не меняли).

4*. Плохая матрица

Поиск производится при длине слова 2. При смены матрицы на PAM250 (до этого по умолчанию BLOSUM62) уменьшилось количество находок с 95 до 66, и ухудшилось e-value всех находок: так, например, e-value наилучшей находки равно 2e-98. Возможно, это объясняется тем, что матрицa PAM250 подходит для выравниваний коротких последовательностей.


© Агаева Зара, 2018