PSI-BLAST. Множественное выравнивание

Как и в предыдущем задании, для выполнения практикума была взята аминокислотная последовательность дУТФазы, выделенной из Amycolatopsis orientalis HCCB10007 (YP_008011580.1).
Задача: построить множественное выравнивание последовательностей гомологов.

1. Создание семейства гомологов для выбранного белка с помощью PSI-BLAST.

Для поиска гомологичных последовательностей на сайте NCBI был запущен PSI-BLASTP по базе данных SwissProt. В дополнительных параметрах я установила максимальное количество находок 20000, чтобы увидеть все найденные гомологи. Все остальные параметры были оставлены по умолчанию. На каждой итерации PSI-BLAST выдает список находок, среди которых отмечает те находки, которых не было на предыдущей итерации. По умолчанию для следующей итерации используются находки с E-value < 0.005. В таблице 1 указана информация о каждой итерации.

Таблица 1. Сравнение гомологов для исследуемого белка, найденных BLASTP по базе данных Refseq_protein.
Номер итерации Количество находок лучше порога Наличие новых находок ID лучшей находки Score лучшей находки E-value лучшей находки ID худшей находки* Score худшей находки* E-value худшей находки*
1 379   Q82KK4.1 195 1e-61 B8GHN1.1 39.7 0.004
2 661 + C4L816.1 223 8e-73 A9B2B7.1 39.7 0.005
3 699 + P43792.1 203 5e-65 P03242.2 48.2 2e-06
4 699 - P43792.1 196 2e-62 Q6ZN92.1 57.5 9e-10
*для худшей находки выше порога После четырех итераций произошла стабилизация результата, то есть список находок выше порога совпадает со списком последовательностей, поданных на вход. Для "лучшей" неправильной находки E-value составило 1.7, то есть эта ступенька E-value до худшей "правильной" находки довольно большая, поэтому довольно вероятно, что находки составляют семейство гомологичных белков. Последовательности всех найденных находок были сохранены в файл family.txt.

3. Построение множественного выравнивания отобранных последовательностей при помощи программы muscle.

Для отобранных последовательностей с помощью программы muscle на сервере kodomo было построено множественное выравнивание:

muscle -in family.txt -out ali_family.fasta
С полученным выравниванием можно ознакомиться в формате .fasta.

4. Построение множественного выравнивания типичных представителей данного семейства.

Для того, чтобы получить выравнивание небольшого количества типичных белков была использована встроенная функция JalView > Edit > Remove redundancy с порогом идентичности в 95%. В результате получено выравнивание для 10 последовательностей.

5. Построение множественного выравнивания тех же последовательностей при помощи программы mafft.

Для отобранных в предыдущем задании последовательностей с помощью программы mafft на сервере kodomo было построено множественное выравнивание:

mafft seeds.fasta > seeds_mafft.fasta
С полученным выравниванием можно ознакомиться в формате .fasta.

6. Сравнение выравниваний, полученных в заданиях 4 и 5.

Для сравнения двух выравниваний была использована программа muscle на сервере kodomo:

muscle -profile -in1 seeds_mafft.fasta -in2 seeds_muscle.fasta -out ali-ali.fasta
Полученное выравнивание было открыто в JalView и покрашено по группам.

С результатами работы можно ознакомиться в проекте JalView. Довольно большие участки сходства наблюдаются в середине белка (рисунок 1), однако абсолютно консервативных колонок крайне мало. Это может быть связано с разным механизмом действия программ muscle и mafft, например, разной ценой за открытие и продолжение гэпа.


Рисунок 1. Фрагмент выравнивания двух выравниваний, построенных mafft (верхняя группа) и muscle (нижняя группа).


© Наталья Ланина
e-mail: n.lanina@fbb.msu.ru

последний раз обновлялось: 19.2.16