Поиск гомологов своего белка с
помощью protein BLAST.
Цель этого задания - собрать выборку гомологов с
помощью программы BLAST, построить множественные и парные выравнивания
нашей последовательности с найденными программой.
Ссылка на проект.
Использовали последовательность белка АТФ-зависимой ДНК хеликазы бактерии
Deinococcus radiodurans (
последоватльность
в fasta-формате). Искали гомологи в базе данных Pefseq среди всех
организмов, кроме моего вида. Поставим максимальное количество
последовательностей на 20000, потому что при других значениях E-value
хучшего результата < 0.01. Полные параметры поиска по
ссылке.
Поиск выдал 17258 результатов, из которых 5083 имеют степень покрытия
>= 80 %, а 5321 - >= 70 % (E-value < 1e-3). Сравнение лучшей, хучшей
находки и любой находки из середины приведено в таблице 1.
Таблица 1. Сравнение лучшей, хучшей и средней находки. |
Находка | Bit-score | E-value | Identities | Positives | Gaps |
Лучшая | 1285 | 0.0 | 92% | 95% | 1% |
Средняя | 244 | 1e-66 | 29% | 48% | 7% |
Хучшая | 116 | 3e-23 | 31% | 46% | 5% |
Сохраним 21 последовательность из середины (чтобы не были очень сильно
похожи) в формате fasta. Сделаем множественное выравнивание этих
последовательностей (в том числе хучшей) с исходной. В
полученном выравнивании есть
длинные невыровненные участки на N- и C-концах, различные у разных
последовательностей.
Выравнивание выравниваний между собой
показало, что needle и water превосходно выравниваются между собой, что
не удивительно, ведь это точные алгоритмы. Выравнивание из BLAST
совпадает с ними довольно хорошо. Однако, выравнивание, выделенное из
множественного, сделанного с помощью muscle (with default), очень сильно
отличается от первых трех.
Возьмем белок, негомологичный нашему, например
С-фитоцианин. Сделаем выравнивание с помощью
needle и
water . Хорошо выравнять их не удается,
есть большие регионы несовпадений, как например, на рис.1.
Рис.1 Пример различия между needle(первая пара) и water(вторая).