• Главная
  • Обо мне
  • Семестры
    Семестр 1
    Семестр 2
    Семестр 3
    Семестр 4
    Семестр 5
    Семестр 6
  • Проекты
  • Заметки
  • Ссылки
PSI-BLAST Отредактировано 12/05/13
Семестр 1
Семестр 2
Семестр 3
Семестр 4
Семестр 5
Семестр 6

Семейство программ серии BLAST делится на пять основных групп (см. http://ru.wikipedia.org/wiki/BLAST):


Нуклеотидные
Белковые
Транслирующие
Геномные
Специальные

Белковые предназначены для сравнения изучаемой аминокислотной последовательности белка с имеющейся базой данных белков и их участков. Конкретно PSI-BLAST (Position-Specific Iterated BLAST) проводит анализ с целью поиска последовательностей, обладающих незначительным сходством. Этот алгоритм использует технику профилей (Position-specific scoring matrix, PSSM) для поиска, которые строятся на основе уже найденных гомологов (итеративная процедура: нашли по профилю гомологов -> создали новый профиль -> нашли гомологов по новому профилю). Это позволяет выявить лучшие находки.


Профиль – это таблица, в которой строки отражают все аминокислоты, а столбцы – позиции в выравнивании. Число в ячейке отражает вес рассматриваемой аминокислоты в данной позиции (чем больше число, тем, соответственно, чаще встречается).


Работа алгоритма состоит из нескольких этапов:


1ая итерация: обычный белок-белковый BLAST
Построение профиля (PSSM) на основе множественного выравнивания находок с E-value < 0,005 (порог можно менять)
PSSM используется для поиска на следующей итерации
Новые последовательности с E-value<0,005 добавляются в выравнивание, по которому строится новая PSSM
Снова поиск и т.д., пока не сойдётся

Поиск считается сошедшимся, если после очередной итерации список находок выше порога не изменился. Это означает, что профиль тоже не изменится, и следующая итерация даст тот же результат. Чем больше гомологов, тем, соответственно, больше итераций нужно для алгоритмического схождения.


Таблица 1

Поиск гомологов в банке SwissProt с помощью паттернов


Номер итерации Число находок выше порога (0,005) Идентификатор худшей находки выше порога E-value этой находки Идентификатор лучшей находки ниже порога E-value этой находки
1 1 YP_009031.1 2e-22 ZP_01989141.1 1
2 8 ZP_06182218.1 5e-05 YP_004905238.1 3.2
3 8 ZP_06182218.1 1e-08 NP_609230.2 0.37
4 8 ZP_06182218.1 1e-08 NP_609230.2 0.37


При каждой последующей итерации происходит стабилизация результата. После третьего поиска список найденных гомологов не изменился, но e-value хитов изменился. Четвертый поиск не дал изменений, следовательно, поиск можно считать сошедшимся.


Чтобы проверить правильность подборки гомологов, надо построить выравнивание.


Рис.1.Выравнивание последовательности белка Q9QCL4 (самый нижней) и гомологов, найденных с помощью PSI-BLAST(для просмотра увеличенной версии кликните на рисунок)


Как показывает выравнивание, найденные белки гомологичные между собой. Первые четыре из них принадлежат организмам, относящимся Vibrio. К роду Однако, гомология найденных белков с рассматриваемым белком Q9QCL4 очень сомнительна.



© Малеева Александра