PSI-BLAST. Множественное выравнивание
Задание 1
Для выполнения заданий была использована последовательность белка Elongation factor 1-alpha археи Acidilobus saccharovorans 345-15.
Последовательность можно посмотреть в fasta-файле.
Проект JalView можно скачать по ссылке.
В задании требовалось составить семейство гомологов для последовательности белка Elongation factor 1-alpha с помощью программы PSI-BLAST. Для этого был
быполнен поиск гомологов последовательности данного белка в этой программе, причем поиск производился по базе данных UniProtKB/Swiss-Prot.
Количество выводимых на экран находок было увеличено до 20000 для того, чтобы получать все необходимые последовательности.
Результаты итераций поиска представлены в Таблице 1.
Таблица 1. Информация об итерациях PSI-BLAST | ||||||||
---|---|---|---|---|---|---|---|---|
Номер итерации | Количество находок | Количество новых находок | Identity лучшей находки, % | Score лучшей находки | E-value лучшей находки | Identity худшей находки, % | Score худшей находки | E-value худшей находки |
1 | 160 | 160 | 78 | 712 | 0.0 | 60 | 38.1 | 0.004 |
2 | 193 | 33 | 72 | 771 | 0.0 | 20 | 37.9 | 0.002 |
3 | 58 | 0 | 72 | 768 | 0.0 | 29 | 168 | 7e-47 |
4 | 58 | 0 | 72 | 768 | 0.0 | 29 | 168 | 7e-47 |
Изначально при заданных параметрах после первой итерации появилось слишком большое число находок (3130 последовательностей), поэтому было решено
ограничить поиск только белками архей (для этого в параметрах поиска в поле Organisms было введено "archaea"). Однако и в таком случае появлялось много
"лишних" находок (последовательностей других белков; их E-value более чем на 100 порядков отличались от E-value белков Elongation factor 1-alpha),
поэтому на каждую новую итерацию отправлялись только последовательности, в аннотациях к которым было указано "Elongation factor 1-alpha".
Также для уменьшения числа "лишних" находок порог E-value, по которому вела отбор программа, перед третьей итерацией был уменьшен до 1е-40.
На каждой итерации после последней последовательности с записью "Elongation factor 1-alpha" стояла последовательность белка Selenocysteine-specific
elongation factor [Methanocaldococcus jannaschii DSM 2661], она и стала худшей находкой на 3 и 4 итерациях. Лучшей находкой являлась
последовательность белка Elongation factor 1-alpha [Staphylothermus marinus F1].
Список всех находок сохранен здесь.
Задание 3.
На сервере kodomo было построено множественное выравнивание. Команда: muscle -in seqdump.fasta -out musclealign.fasta.
Результат
Рис. 1. Множественное выравнивание семейства гомологов, выполненное программой muscle, pаскраска ClustalX.
Задание 4.
Было построено выравнивание типичных представителей данного семейства - так называемого "seed". Были отобраны из всего списка 10 последовательностей с помощью сервиса Remuve redundancy в JalView (порог 75%), а затем выровнены при помощи программы muscle (muscle -in seed.fasta -out muscleseed.fasta).
Рис. 2. Результат построенного программой muscle множественного выравнивания seed, отобранного с помощью Remove redundancy, раскраска ClustalX.
Задание 5.
При помощи программы mafft на сервере kodomo было построено множественное выравнивание тех же последовательностей: mafft seed.fasta > mafftseed.fasta. Результат
Рис. 3. Результат построенного программой mafft множественного выравнивания seed, раскраска ClustalX.
Задание 6
При помощи программы muscle были сравнены 2 выравнивания, полученные при выполнении заданий 4-5 (muscle -profile -in1 muscleseed.fasta -in2 mafftseed.fasta -out compare.fasta). Результат
Рис. 4. Сравнение двух выравниваний, ClustalX
В целом, можно заметить, что выравнивания довольно схожи, но присутствует большой участок, на котором я сно видно различие между выравнивании - все позиции, начиная с 515ой. Видно, что в конце общего выравнивания появляются 3 участка с очень длинными гэпами, но видно, что в первых двух случаях это вызвано тем, что в обоих выравниваниях на позициях 446-465 и 481-505 находился длинных гэп во всех последовательностях, кроме SELB_METJA, а на позициях 38-62 длинный гэп, наоборот, был вставлен только в эту последовательность. Также следует упомянуть, что в двух выравниваниях последовательности были расположены в разном порядке.
Возможо, такие несходства в выравниваниях связаны с различным механизмом действия программ muscle и mafft, например, разными штрафами за гэпы. Но, на самом деле, из-за внешней похожести выравниваний и различного расположения последовательностей в них крайне трудно провести качественный анализ результатов работ программ muscle и mafft и сделать вывод о том, какая программа работает эффективнее.