На главную страницу вторго семестра

PSI-BLAST


Параметры поиска:
Учета особенностей аминокислотного состава нет (по умолчанию стоял composition-based statistics, но почемуто у тех студентов странички которых я посмотрел было написано "без учета")
Фильтрование областей низкой сложности (Low complexity) присутсвует.
E-value = 10
Number of Descriptions = 1000
 Кол-воE-value лучшей находкиНазвание лучшей находки (ID )% идентичностиДлина выравнивания
Всего находок107 (или надо брать "Number of successful extensions"?)5e-81LGB1_LUPLU100%154
В бактериях (Bacteria)321e-06HMP_BORPE27%136
В Escherichia coli K-120    
В животных (Metazoa)253e-06NGB_BRARE25%141
В человеке26.2CRNL1_HUMAN28%78 (что такое Length=848)

Результаты существенно отличаются от результатов других студентов, разобраться почему - неудалось... У человека 2 гомолога, у Кишечной палочки обнаружить гомологов не удалось.
Номер итерации
Бактерии
Животные
Характеристика лучшей находки среди белков
Escherichia coli, K-12
Homo sapiens sapiens
Кол-во
Новые
Кол-во
Новые
Название
E-value
% идентичности
Длина выравнивания
Название
E-value
% идентичности
Длина выравнивания
1
21 +21 5 +5         CRNL1_HUMAN 6.2 28% 78
2
38 +17 86 +81 HMP_ECOLI 3e-42 20% 154 NGB_HUMAN 3e-27 22% 135
3
38 0 832 +751 HMP_ECOLI 3e-57 20% 154 HBG2_HUMAN 3e-29 18% 147
4
    842 +10         HBG2_HUMAN 2e-52 17% 153
5
    842 0        HBB_HUMAN 4e-55 15% 153
  1. Для решения каких задач нужно использовать PSI-BLAST?
    Psi-blast надо использовать для поиска долеких гомологов. Т.к. в последующих итерациях он использует находки предыдущей, для корректировки профиля PSSM. В итоге поиска найдено гораздо больше гомологов чем blastpом.
  2. Что представляет собой первая итерация PSI-BLAST?
    Первая итерация Psi-blast полностью аналогична работе blastр.
  3. Что удалось найти, по Вашему мнению, в результате упражнения №2?
    Удалось найти большое число гомологов, все они являются переносчиками кислорода.
  4. Что происходило с "лучшими находками" на разных итерациях? Предложите объяснения.
    Лучшие находки меняются. Это связанно с изменением весов замен на каждой следующей итерации
  5. Возможны 2 стратегии. Первая состоит в том, чтобы на каждой итерации вести поиск по всем организмам. Вторая состоит в том, чтобы после первой итерации отфильтровать находки по интересному для Вас таксону, и затем запустить следующие итерации. Какие отличия можно ожидать в результатах?
    При поиске по по данному таксону менее целесообразен, т.к. при этом уменьшается количество последовательностей и соответсвенно уменьшается e-volue т.е. большее число белков (среди которых могут быть и не гомологи) будет учтено и соответственно упадет точность, кроме того, если считать что все находимые белки точно гомологи (а мы работаем в таком приближении) то чем больше группа для составления профиля, тем больше (и/или точнее) будет находок.
  6. Не нашел где взять профиль PSSM.

©Павел, Мазин