Исследование блоков во множественном выравнивании
В эволюции не всегда сохраняется общая архитектура последовательности белка в целом, и поэтому важно бывает уметь находить значимые локальные сходства. Хотя единица эволюции белковой молекулы — это домен, на выравниваниях удобно бывает анализировать именно блоки (участки молекулы, где происходили только локальные мутации, без делеций, вставок и перестановок).
Поиск блоков в выравнивании
Для работы я решил взять одно семество в Pfam, куда входит и мой белок. Оттуда я взял файл с полными последовательностями белков, входящих в семейство.
Файл с последовательностями был открыт в JalView, оттуда выбрано 125 штук, включая мой белок. (При таком их числе они выровнялись за достаточно небольшое время). После подготовки, как в задании, я оставил 13 белков. В выравнивании было выявлено 6 блоков. Так как чёткие критерии, какие позиции включать в блок, предъявить трудно, то не всегда ясно, имеет ли смысл расширять блок до отдельно стоящей на среднем расстоянии консервативной позиции. Видимо, это лучше решать уже из конкретных условий и целей проводимой работы.
Примерно от позиции с номером 80 в выравнивании и до 190-й нет гепов. Более того, здесь наблюдаются 4 блока из 6 достоверно обнаруженных. Большое число блоков на небольших расстояниях — свидетельство гомологичности последовательностей. Этого следовало ожидать, учитывая, что все они взяты из семейства Pfam, содержащего домен лактатдегидрогеназы. :)
Итоговый проект JalView можно скачать. В нём размечены блоки: см. цифры в нижней строчке аннотаций. (К сожалению, удалить остальные аннотации так, чтобы программа это сохранила, не удаётся.)