RanHummer personal web-site

PSI-BLAST. Множественное выравнивание

Для выполнения заданий данного практикума была взята аминокислотная последовательность белка Mutator MutT protein из организма бактерии Mesorhizobium opportunistum WSM2075 (идентификатор в базе данных RefSeq NC_015675). Данная последовательность доступна в формате fasta. Проект JalView

Задание 1. Для последовательности вашего белка составьте семейство гомологов, пользуясь PSI-BLAST.

Для выполнения этого задания я провел поиск гомологов последовательности моего белка в данной программе, указав банк UniProtKB/Swiss-Prot, по которому будет производиться поиск, и увеличив количество выводимых на экран находок до 1000, чтобы получать все необходимые последовательности.

При повторных запусках программы по уже найденным гомологам обнаруживаются новые последовательности гомологов. Требовалось провести такое количество итераций, чтобы список находок выше порога совпадал со списком последовательностей, поданных на вход (но не больше 5-ти). Для каждой последующей итерации программа отбирает находки с E-value < 0.005 (вообще для каждой итерации программа отдельно выдает находки выше и ниже порога - E-value < 0.005).

В Таблице 1 представлена информация о каждой итерации (Условия поиска): количество находок лучше порога, появились ли новые находки на данной итерации, ID, score и E-value лучшей и худшей находки (выше порога).

Таблица 1. Сравнение итераций программы PSI-BLAST.
Номер итерации	Количество находок выше порога	Появляются ли новые находки	ID лучшей находки выше порога	Score лучшей находки выше порога	E-value лучшей находки выше порога	ID худшей находки выше порога	Score худшей находки выше порога	E-value худшей находки выше порога
1	142	Да	P77788.1	94.7	2e-19	Q1RHV9.1	41.5	0.005
2	514	Да	P08337.1	119	3e-27	P33071.1	41.6	0.005
3	580	Да	P60923.1	133	1e-31	Q6P3D0.1	41.5	0.005
4	596	Да	A8GII0.1	133	2e-31	A1A4Q9.1	42.3	0.003
5	610	Да	A8GII0.1	149	2e-36	P83842.1	41.9	0.004

Было заметно, что в выдаче PSI-BLAST имеются белки смежных, а то и воссем других семейств, например, mRNA-decapping protein D10. Тем не менее, данные случаи слишком редки, а белки Nudix-семейства слишком хорошо находятся, чтобы это создало проблемы.

Из данных Таблицы 1 видно, что уже на 3-ей итерации число находок начинает выходить на ассимптоту. Однако, полной стабилизации за 5 итераций не происходит. Можно предположить, что в этом как-то замешана мутаторная природа исходного белка семейства Nudix.

Задание 3. Постройте множественное выравнивание отобранных последовательностей при помощи программы muscle на сервере kodomo.

Для выполнения этого задания я использовал команду muscle -in family.fasta -out all_muscle.fasta. С результатом множественного выравнивания можно ознакомиться в прикрепленном проекте JalView (окно all_muscle), а также в формате fasta.

Задание 4. Постройте множественное выравнивание типичных представителей данного семейства.

В данном задании было необходимо построить множественное выравнивание программой muscle уже не всех белков семейства, а специально отобранных seed - 10-20 последовательностей данного семейства, которые должны удовлетворять нескольким критериям:

Они должны быть гомологичны почти по всей длине (coverage = 70-90%)
Гомологии должны быть достоверными (E-value < 1e-3 в результатах поиска)
В выборке не должно быть "почти идентичных" белков - Identity должна быть на уровне 50-60%

Так как первым двум критериям удовлетворяют почти все имеющиеся последовательности, то для выбора последовательностей seed я воспользовался встроенной опцией JalView: Edit -> Remove redundancy. Данная опция оставляет последовательности, сходные меньше, чем на указанное значение порога - процент идентичности последовательностей. Чтобы выбрать необходимое количество последовательностей, я указал порог в 92% идентичности. В результате, я получил 14 последовательностей.

С результатом выбора Seed с помощью опции Remove redundancy и множественным выравниванием этих последовательностей программой muscle можно ознакомиться на Рис. 1 и в окне проекта JalView seed_muscle, а также в формате fasta.

Рис. 1. Множественное выравнивание Seed (отобран с помощью Remove redundancy), выполненное программой muscle. Раскраска ClustalX.

Задание 5. Постройте множественное выравнивание тех же последовательностей при помощи программы mafft на сервере kodomo.

Для выполнения этого задания я использовал команду mafft seed.fasta > seed_mafft.fasta. С результатом работы данной программы можно ознакомиться на Рис. 2, в проекте JalView в окне seed_mafft, а также в формате fasta.

Рис. 2. Множественное выравнивание Seed (отобран с помощью Remove redundancy), выполненное программой mafft. Раскраска ClustalX.

Задание 6. Сравните полученные с помощью программ muscle и mafft множественные выравнивания Seed семейства гомологов белка Mutator MutT protein.

Для выполнения этого задания я воспользовался командой muscle -profile -in1 seed_mafft.fasta -in2 seed_muscle.fasta -out mafft_muscle.fasta. С результатом работы программы можно ознакомиться на Рис. 3 (в верхней части - mafft, в нижней - muscle), в проекте JalView в окне mafft_muscle, а также в формате fasta.

Чтобы сравнить выравнивания, выполненные с помощью программ mafft и muscle, я долго изучал сведение двух выравниваний и пришел к выводу, что ни один участок в них не совпадает. Их различие возникает в из-за того, что разные программы в разных местах добавляют гэпы, то есть непосредственно от особенностей работы программ muscle и mafft. А такая степень различия проистекает, как мне кажется, из большой длины выравнивания и слабости паттерна семейства.

Рис. 3. Выравнивание выравниваний mafft и muscle, выполненное программой muscle. Раскраска ClustalX.

В заключение нужно сказать, что определенных различий между программами выявить не удалось. Гэпы ставятся очень по-разному, но в итоге в примерно одинаковом количестве. Блоки в выравниваниях очень похожи, но при этом в них существуют последовательности с сильным сдвигом относительно себя же в другом выравнивании.