Учебный сайт Аксеновой Марины

PSI-BLAST. Множественное выравнивание

Задание 1

Для выполнения заданий была использована последовательность белка Elongation factor 1-alpha археи Acidilobus saccharovorans 345-15.
Последовательность можно посмотреть в fasta-файле.
Проект JalView можно скачать по ссылке.

В задании требовалось составить семейство гомологов для последовательности белка Elongation factor 1-alpha с помощью программы PSI-BLAST. Для этого был быполнен поиск гомологов последовательности данного белка в этой программе, причем поиск производился по базе данных UniProtKB/Swiss-Prot. Количество выводимых на экран находок было увеличено до 20000 для того, чтобы получать все необходимые последовательности.
Результаты итераций поиска представлены в Таблице 1.

Таблица 1. Информация об итерациях PSI-BLAST
Номер итерации Количество находок Количество новых находок Identity лучшей находки, % Score лучшей находки E-value лучшей находки Identity худшей находки, % Score худшей находки E-value худшей находки
1 160 160 78 712 0.0 60 38.1 0.004
2 193 33 72 771 0.0 20 37.9 0.002
3 58 0 72 768 0.0 29 168 7e-47
4 58 0 72 768 0.0 29 168 7e-47

Изначально при заданных параметрах после первой итерации появилось слишком большое число находок (3130 последовательностей), поэтому было решено ограничить поиск только белками архей (для этого в параметрах поиска в поле Organisms было введено "archaea"). Однако и в таком случае появлялось много "лишних" находок (последовательностей других белков; их E-value более чем на 100 порядков отличались от E-value белков Elongation factor 1-alpha), поэтому на каждую новую итерацию отправлялись только последовательности, в аннотациях к которым было указано "Elongation factor 1-alpha". Также для уменьшения числа "лишних" находок порог E-value, по которому вела отбор программа, перед третьей итерацией был уменьшен до 1е-40.
На каждой итерации после последней последовательности с записью "Elongation factor 1-alpha" стояла последовательность белка Selenocysteine-specific elongation factor [Methanocaldococcus jannaschii DSM 2661], она и стала худшей находкой на 3 и 4 итерациях. Лучшей находкой являлась последовательность белка Elongation factor 1-alpha [Staphylothermus marinus F1].
Список всех находок сохранен здесь.

Задание 3.

На сервере kodomo было построено множественное выравнивание. Команда: muscle -in seqdump.fasta -out musclealign.fasta.
Результат

Множественное выравнивание семейства гомологов, выполненное программой muscle, pаскраска ClustalX
Рис. 1. Множественное выравнивание семейства гомологов, выполненное программой muscle, pаскраска ClustalX.

Задание 4.

Было построено выравнивание типичных представителей данного семейства - так называемого "seed". Были отобраны из всего списка 10 последовательностей с помощью сервиса Remuve redundancy в JalView (порог 75%), а затем выровнены при помощи программы muscle (muscle -in seed.fasta -out muscleseed.fasta).

Результат построенного множественного выравнивания, раскраска ClustalX
Рис. 2. Результат построенного программой muscle множественного выравнивания seed, отобранного с помощью Remove redundancy, раскраска ClustalX.

Задание 5.

При помощи программы mafft на сервере kodomo было построено множественное выравнивание тех же последовательностей: mafft seed.fasta > mafftseed.fasta. Результат

Результат построенного множественного выравнивания, раскраска ClustalX
Рис. 3. Результат построенного программой mafft множественного выравнивания seed, раскраска ClustalX.

Задание 6

При помощи программы muscle были сравнены 2 выравнивания, полученные при выполнении заданий 4-5 (muscle -profile -in1 muscleseed.fasta -in2 mafftseed.fasta -out compare.fasta). Результат

Сравнение двух выравниваний
Рис. 4. Сравнение двух выравниваний, ClustalX

В целом, можно заметить, что выравнивания довольно схожи, но присутствует большой участок, на котором я сно видно различие между выравнивании - все позиции, начиная с 515ой. Видно, что в конце общего выравнивания появляются 3 участка с очень длинными гэпами, но видно, что в первых двух случаях это вызвано тем, что в обоих выравниваниях на позициях 446-465 и 481-505 находился длинных гэп во всех последовательностях, кроме SELB_METJA, а на позициях 38-62 длинный гэп, наоборот, был вставлен только в эту последовательность. Также следует упомянуть, что в двух выравниваниях последовательности были расположены в разном порядке.

Возможо, такие несходства в выравниваниях связаны с различным механизмом действия программ muscle и mafft, например, разными штрафами за гэпы. Но, на самом деле, из-за внешней похожести выравниваний и различного расположения последовательностей в них крайне трудно провести качественный анализ результатов работ программ muscle и mafft и сделать вывод о том, какая программа работает эффективнее.