t2_pr11

Выравнивания. Часть3.

Задание 1. Характеристики списка находок.

Для поиска гомологов белка AAN68968.1 в Swiss-Prot:

BLAST -> Protein BLAST -> Database SwissProt -> AAN68968.1

всего находок: 52;
находок с Е > 1e-3: две находки;
максимальное E находки, выданное программой: 3.1 (последняя находка);
предыдущая находка имеет Е = 0.004; Е остальных находок меньше 1е-17;

Можно сделать вывод, что количество выданных находок ограничено не настройкой программы выводить не более 52 находок (ну не очень логичное число), а порогом на E-value. Действительно, разница между соседними находками по E-value примерно порядок, Е последней нахлдки 3.1, можно предположить, что при поиске в BLAST стоит ограничение на Е < 10. Искать гомологи при больших Е уж точно бессмысленно. Кроме того, в можно посмотреть, что в Algorithm parameters стоит Max target sequences = 100 (;

Задание 2. Изменение длины слова.

BLAST - эвристический алгоритм, в нем используются "якоря" - короткие слова, по совпадению (или наличию похожих) которых выравниваются последовательности. В веб-интерфейсе можно задать их длину (Algorithm parameters -> Word size) 2, 3 или 6. При увеличении длины слова скорость работы алгоритма повышается (проверено!), но чувствительность падает. Это особенно влияет на находки с Е между 1е-3 и 1:

всего находок: 96;
находок с Е > 1e-3: 46 находок;
максимальное E находки, выданное программой: 7.9 (последняя находка);

Повышение чувствительности алгоритма заметно: в прошлый раз было найдено только 2 последовательности с Е > 1e-3, в этот раз таких находок 46. При этом те две - это не лучшие из 46, а случайные. Заметим, что на верхнюю часть списка изменение word size не повлияло: с Е < 1e-3 найдены всё те же 50 последовательностей.

Количество выданных последовательностей-находок снова лимитировано E-value: находок меньше 100, а Е последней находки приближается к 10. Опять же, можно посмотреть в Algorithm parameters, что по умолчанию Expect threshold = 10, ЧТД.

Задание 3. Изменение объёма поиска.

Ограничим поиск таксоном Streptophyta (белки представителей этого таксона встречаются среди предыдущих находок). Параметры выравнивания те же: длина слова 2, верхнее ограничение на E-valuue - 10.

всего находок: 42;
находок с Е > 1e-3: 5 находок, Е остальных находок меньше 1е-30

При ограничении поиска на подмножество банка количество находок, естественно, уменьшилось. Но уменьшилось непропорционально, ведь мы выбрали не случайное подмножество банка, а то, про которое заранее известно, что белки, родственные выбранному, там встречаются. Поэтому число хороших находок (E < 1e-3) слабо изменилось: 37 вместо 50, плохих находок осталось всего 5. Видимо, в поиске по всему банку "плохими" находками были гомологичные белки других групп организмов.

Такие параметры, как positives, identities зависят только от самой находки и белка, по которому идет поиск, поэтому они не изменились. Сравним вес и Е для одной и той же находки (P42500.1, выбрана случайно) в посике по всему банку и по Streptophyta:

где ищем	score	score bits	E-value
Swiss-Prot	381	151	3e-36
S-P: Streptophyta	381	151	3е-37

Вес не изменился, так как зависит только от параметров выравнивания: матрицы, штрафов за гэпы.

E-value - это ожидаемое количество находок с таким же или лучшим весом, поэтому Е линейно (прямо пропорционально) зависит от размера банка. Если бы мы ограничили банк случайным образом, можно было бы посчитать, что Streptophyta составляют 3е-37/3e-36 = 10% всего банка Swiss-Prot. В действительности размер класса, конечно, меньше: в этом классе просто болеше гомологов нашего белка, несмотря на то, что искомый белок принадлежит P.putida, гаммапротеобактерии. Видимо, это связано с тем, что все эти белки унаследованы от бактерий: это фитохромы, регуляторы дыхания, белки 70S рибосом.

Вернуться на главную

Вернуться на страницу семестра