назад

Ознакомление с программой Muscle:

Для множественного выравнивания возьмем вирусные белки - дельта-антигены ( файл с последовательностями в fasta-формате )

невыравненные белки

выравненные в fasta-формате

выравненные в msf-формате

В файлах с выравниванием белки даны в другой последовательности; в начальном файле тоже были консервативные колоники, однако в оптимальном выравнивании консервативные колоники не всегда совпадают с ними.

Выравнивание набора гомологов белка PURT_ECOLI (P33221):

Для выравнивания найдем BLAST'ом 10 гомологов белка PURT_ECOLI (считаем гомолог достоверным, если E-value<0.001), из них берем те, для которых процент идентичности с белком PURT_ECOLI < 90% - чтобы белки были не слишком похожи и выравнивание было интереснее. Чтобы гомологи не были слишком близки друг к другу, выбираем их из разных родов организмов.

Гомологи белка PURT_ECOLI для сравинвания
Идентификатор E-value %идентичности таксономия организма
>sp|Q57NB7.1|PURT_SALCH 0.0 87% Salmonella choleraesuis. Bacteria; Proteobacteria; Gammaproteobacteria; Enterobacteriales; Enterobacteriaceae; Salmonella
>sp|A7MEA0.2|PURT_ENTS8 0.0 82% Enterobacter sakazakii (strain ATCC BAA-894). Bacteria; Proteobacteria; Gammaproteobacteria; Enterobacteriales; Enterobacteriaceae; Cronobacter.
>sp|Q1C8V8.1|PURT_YERPA 0.0 78% Yersinia pestis bv. Antiqua (strain Antiqua). Bacteria; Proteobacteria; Gammaproteobacteria; Enterobacteriales; Enterobacteriaceae; Yersinia.
>sp|Q6D4B6.1|PURT_ERWCT 7e-175 78% Erwinia carotovora subsp. atroseptica (Pectobacterium atrosepticum). Bacteria; Proteobacteria; Gammaproteobacteria; Enterobacteriales; Enterobacteriaceae; Pectobacterium.
>sp|Q2NTH8.1|PURT_SODGM 1e-174 75% Sodalis glossinidius (strain morsitans). Bacteria; Proteobacteria; Gammaproteobacteria; Enterobacteriales; Enterobacteriaceae; Sodalis.
>sp|Q6LRI4.1|PURT_PHOPR 6e-162 70% Photobacterium profundum (Photobacterium sp. (strain SS9)). Bacteria; Proteobacteria; Gammaproteobacteria; Vibrionales; Vibrionaceae; Photobacterium.
>sp|Q9KSM8.2|PURT_VIBCH 8e-161 71% Vibrio cholerae. Bacteria; Proteobacteria; Gammaproteobacteria; Vibrionales; Vibrionaceae; Vibrio.
>sp|Q0HS20.1|PURT_SHESR 3e-155 67% Shewanella sp. (strain MR-7). Bacteria; Proteobacteria; Gammaproteobacteria; Alteromonadales; Shewanellaceae; Shewanella.
>sp|Q1I5Y3.1|PURT_PSEE4 9e-155 69% Pseudomonas entomophila (strain L48). Bacteria; Proteobacteria; Gammaproteobacteria; Pseudomonadales; Pseudomonadaceae; Pseudomonas.
>sp|A0KK42.1|PURT_AERHH 3e-151 68% Aeromonas hydrophila subsp. hydrophila (strain ATCC 7966 / NCIB 9240). Bacteria; Proteobacteria; Gammaproteobacteria; Aeromonadales; Aeromonadaceae; Aeromonas.

По низким значениям E-value видно, что выбранные белки - достоверные гомологи для PURT_ECOLI, файл с последовательностями гомологов в fasta-формате

Файл с выравниванием в msf-формате

Файл с выравниванием в fasta-формате
Участки с повышенной долей консервативных позиций
координаты по столбцам выравнивания координаты по остаткам белка PURT_ECOLI
21-64 21-64
110-130 110-130
220-237 220-237
257-270 257-270
277-312 277-312

Интересно, что по данным UniProt белок PURT_ECOLI ( p33221 ) содержит АТФ-связывающий домен (119-308 а.о), и наиболее длинные консервативные участки находятся в этой области. Сравниваемые гомологи также имеют АТФ-связывающий домен (такого же размера, расположенный в схожей области), выравнивание подтвердило это, белки относятся к АТФ-связывающему суперсемейству. PURT_ECOLI - магний-связывающий белок, металл связывается с аминокислотам E в позициях 267 и 279, отсальные белки также связывают магний (Q57NB7, A7MEA0, Q1C8V8, Q6D4B6, Q2NTH8, Q1I5Y3 - с теми же аминокислотам в тех же позициях, Q6LRI4, Q9KSM8, Q0HS20, A0KK42 - с теми же аминокислотам, но в позициях 265, 277), выравнивание выявило это, перечисленные аминокислоты попарно находятся в одних и тех же колонках. Любопытно, что в гомологах, где магний-связывающие аминокислоты сдвинуты на 2 позиции, на 2 позиции и в ту же сторону сдвинуты также и АТФ-связывающие домены (у белка PURT_ECOLI, Q57NB7, A7MEA0, Q1C8V8, Q6D4B6, Q2NTH8, Q1I5Y3: 119-308, Q6LRI4, Q9KSM8, Q0HS20, A0KK42: 117-306), возможно в белках со сдвигом домена произошла делеция 2 аминокислот (во время эволюционного процесса формирования белка) (или наоборот у других белков вставка 2 аминокислот), на выравнивании это отражено двумя гэпами в начале последовательностей со сдвигом домена

Участки, возможно, лишенные биологического смысла
координаты по столбцам выравнивания координаты по остаткам белка PURT_ECOLI
332-344 322-344
379-391 377-390

Думаю здесь выравнивание, возможно, не имеет биологического смысла, т.к консервативные столбцы чередуются с колонками с разными а.о (с структурной точки зрения - вряд ли эту частки обладают схожей третичной структурой, с эволюционной точки зрения - мало вероятны мутации идущие триплетно, меняющие аминокислоты через одну, с функциональной точки зрения - такие участки выполняют разные функции, ведь значимы не только отдельные а.о, но и аминокислоты, окружающие их)

Программы mafft и edialign:

Программа mafft:

Для выравнивания возьмем PURT_ECOLI и те же его гомологи: файл с выравниванием в fasta-формате

файл с выравниванием в msf-формате

В файлк с выравниванием - белки в том же порядке, что и в исходном файле с полседовательностями. Выравнивание похоже на выравнивание программой muscle, в последовательностях со сдвигом домена, так же есть двойной гэп в начале последовательности, однако этот гэп стоит не в самом начале, а начиная со второй позиции выравнивания. Таким образом все первые M аминокислоты белков стоят в одной колонке, в программе muscle такого не было, ведь краевые гэпы не штрафуются, mafft же пошел на это, возможно из-за других штрафов за гэпы. С другой стороны выравнивание первых метионинов, думаю, не имеет биологического смысла, ведь все бактериальные белки начинаются с метионина (с N-формилметионина), но часто он отщепляется после трансляции.

Программа edialign:

Для выравнивания возьмем те же белки: файл с выравниванием в fasta-формате

файл с выравниванием в msf-фортмате

файл с выравниванием в dialign-формате

В файле с выравниванием - белки в том же порядке, что и в исходном файле с последовательностями. Выравнивание очень похоже на результат muscle, отличаются они тольео расстановкой гэпов в 345-350 колонках выравнивания.

Обработка множественных выравниваний:

Программа consambig:

Для обработки возьмем выравнивание, сделанное программой muscle: файл с результатом в fasta-формате

файл в msf-формате

Программа позволяет наглядно показать наиболее консервативные позиции выравнивания и аминокислоты, стоящие на этих позициях.

Программа distmat:

Для обработки возьмем выравнивание muscle: результат по алгоритму, неучитывающему повторы (does not make any corrections for multiple substitutions)

результат по алгоритму Jukes-Cantor (дает поправку на повторы)

В результате обработки получаем мтрицу, в столбцах и строках которой - сравниваемые белки, а в ячейках эволюционное расстояние между парами белков (на пересечении строки и столбца), по главной диагонали стоят нули - т.к. это сравнение белка с самим собой, отностельно этой диагонали - матрица симметрична, поэтому можно рассматривать только ее половину (в данном случае верхную)

Программа plotcon :

также возьмем выравнивание muscle

график показывает консервативность различных участков выравнивания