На главную

На страницу семестров

Алгоритмы множественного выравнивания.Pfam

Pfam — база данных семейств белковых доменов. Каждое семейство в ней представлено множественным выравниванием фрагментов белковых последовательностей и скрытой марковской моделью (HMM). На март 2017 года в Pfam содержалось 16 712 записей (семейств), объединённых в 604 клана[1].

Задание 1. Различия во множественных выравниваниях, построенных разными программами

Для выполнения задания были использованы последовательности белков, гомологичных белку ELF2 из Poeciliopsis prolifica, найденных с помощью BLAST.
В таблице 1 приведены параметры найденных последовательностей.

Последовательность ELF2 Poeciliopsis prolifica

>JAO98220.1 ELF2, partial [Poeciliopsis prolifica]
MATSQHEGHANQLDLLIRAVEASGYSNVHCSDKTIEAAEALLHMDSPSSLREDRSPEAFTPQSEAAPDFL
HAAMRPDVIGETEVEITTEDCCEEDEEEDEEEEMVTSLEEPEPDNEPVRKKRAGRKTKAPHSSISNGAPD
LSFKKKPREGKAGSTTYLWEFLLDLLQDKNTCPRYIKWTQREKGIFKLVDSKAVSKLWGKHKNKPDMNYE
TMGRALRYYYQRGILAKVEGQRLVYQFKEMPKNIVIIDED

Таблица 1. Параметры найденных белков

Название белка	Coverage	E-value	Identity	ID/AC
spectrin beta chain, non-erythrocytic 1 isoform 2 [Mus musculus]	1	4.00E-24	1	NP_033286.2
spectrin beta chain, non-erythrocytic 1 isoform 1 [Mus musculus]	1	4.00E-24	1	NP_787030.2
spectrin beta chain, non-erythrocytic 1 [Rattus norvegicus]	0,83	1.00E-16	0,93	NP_001013148.1
spectrin beta chain, non-erythrocytic 1 isoform X1 [Castor canadensis]	0,83	5.00E-15	0,9	XP_020040264.1
spectrin beta chain, non-erythrocytic 1 [Macaca mulatta]	0,83	1.00E-14	0,88	NP_001253897.1
spectrin beta chain, non-erythrocytic 1 isoform X1 [Odocoileus virginianus texanus]	0,83	2.00E-14	0,88	XP_020770781.1
spectrin beta chain, non-erythrocytic 1 [Bos taurus]	0,83	2.00E-14	0,88	NP_001179205.1

Из рисунка 1 видно, что ELF2 играет важную роль в инициации трансляции. Белки этого семейства участвуют в связывании участка двойной спирали транспортной РНК. Как известно, важной частью инициации является подготовка, обеспечивающее правильное позиционирование белков. Начало трансляции обеспечивается, в частности, затратой ГТФ, связываемого ELF2. Для анализа был выбран именно ELF2, так как он имеет оптимальный размер. Так, ELF3, ELF1 и ELF1A имеют либо слишком большой, либо слишком маленький размер.

Рисунок 1. Место ELF2 в инициации трансляции у эукариот

Описание различий в выравниваниях

Выравнивание 1. Результат работы программы Clustal

Выравнивание 2. Результат работы программы ClustalO

Clustal/ClustalO

79-80: изолейцин расположен неверно.
100-114 Clustal старается выстроить более функционально консервативные позиции за счёт увеличения количества гэпов.
153-157 Clustal собрал одну абсолютно консервативную последовательность.
389-410 Clustal старается собрать фунуционально консервативные, а ClustalO абсолютно консервативные позиции. Причём Clustal использует меньше гэпов. Возможно, в этом алгоритме больше штраф “за огрех”.
520-531 Clustal собирает больше абсолютно консервативных позиций, используя больше гэпов. Замечание выше под сомнением.
585-/ сложный участок вне блоков. ClustalO справляется на 5 абс. кон. поз. лучше, используя больше гэпов.

Выравнивание 3. Результат работы программы Muscle

Выравнивание 4. Результат работы программы Mafft

Muscle/Mafft

318-327 программы справляются почти что одинаково. У Mafft на один суммарный гэп меньше.
520-526 за счет инсерций в четвёртой и седьмой последовательностях образуются разрывы в остальных последовательностях (скорее так, чем иначе) и Muscle лучше формирует блоки.
557-564 здесь для каждой из программ образуются немного разные ситуации за счёт сдвигов в прошлых сложных местах. Mafft решает задачу с выигрышом на одну абс. кон. позицию.
583-615 программы выравнивают по- разному. Muscle старается не разрывать очень похожие четвёртую и седьмую последовательности, а Mafft формирует выигрышные блоки.

Выравнивание 5. Результат работы программы GLprobs

Выравнивание 6. Результат работы программы Probcons

GLprobs/Probcons

520-526 GLprobs старается собрать блоки, тогда как Probcons создаёт малый блок между.
590-600 Probcons выравнивает с использованием меньшего числа гэпов за счёт “маловероятного сдвига LTAAC влево”.

Вывод:

Видно, что, в целом, программы одинаково справляются с выравниями консервативных участков. Выравнивания же сложных мест разнятся в силу отличий алгоритмов и, скорее всего, ~~платы за оказию~~ штрафов за гэпы. Участки с расположенными друг над другом представителями разных групп, имеющими отрицательные веса в матрице BLOSSUM62, выравниваются плохо. Хуже всего выравниваются длинные участки такого состава- очевидно. Разные программы/алгоритмы старются по- разному решить задачу выравнивания за счёт, скорее всего, изменения и подбора параметнов. Из выравниваний видно, что "жадные" на гэпы/индели алгоритмы хуже справляются с выравниванием, в сравнении с "умеренными". При выравнивании необходимо осозновать, хотим ли мы строить блоки всеми доступными средствами или же хотим максимально предсказать биологическое значение полученного результата.

Лучшую воспроизводимость показали алгоритмы GLprobs и Probcons. Самое быстрое выравнивание было построено с помощью Mafft.

Принципы работы алгоритмов
Clustal основан на построении парных выравниваний и UPGMA кластерном анализе.
T-Coffee создаёт библиотеку весов парных выравниваний, может использовать данные из PDB. В нём есть расширения для оценки качества выравнивания и поиска мотивов.
MAFFT одна из самых быстрых программ за счёт использования быстрых рядов Фурье.
В MUSCLE используется три вида выравниваний: первое- быстрое O*(N**(2)*L + N*L**2), для вычисления лучшего "пути", второе- улучшенное O**(N**2 + N*L + L**2), нужно для преоценки дерева, полученного в первом, третье- уточняющее O*(N**3L), чистовое.

Задание 2. Крупные перестройки между парой белков, имеющих гомологичные участки

Основные параметры белка сиалидазы из бактерии Clostridium beijerinckii приведены в таблице 2. Используя сервис Pfam (Рисунок 2), был найден домен моего белка. Рисунок 2 демонстрирует единственный найденный F5/8 type C домен сиалидазы. Он представлен во многих факторах, обеспечивающих коагуляцию крови (5 и 8). Содержит два консервативных цистеина во многих белках, которые замыкают структуру посредством концевых дисульфидных связей. Сервис предлагает 1560 архитектур, содержащих данный домен. При сравнительном анализе видно, что, чаще всего, F5/8 type C домен представлен в двух экземплярах, располагающихся скраю последовательностей.

Рисунок 2. Результат поиска Pfam

Таблица 2. Описание сиалидазы из генома бактерии Clostridium beijerinckii

Параметр	Значение
Идентификатор белка	AJG99379.1
Идентификатор генома	CP010086
Координаты гена в геноме	3087698..3089965
Длина гена (в парах нуклеотидов)	2268
Цепь (прямая или обратная)	Прямая
Длина белка (в аминокислотных остатках)	755

Аминокислотная последовательность сиалидазы

>AJG99379.1 sialidase
MIRRNKRILSLTLSMAVFTTMFMSTSFITKAETVSLGANSEITSNASTESTAVATNIA
LNKPSTASSVTGGNTASLAVDGNAGTRWESAQGSDPQWISIDLGGSYNISGVKLNWET
AAAKDYKIQVSTDNKNWIDAYTKTGGTGGVENIAFNSTATGRYIRMLGTTRTTQYGYS
LWEFEVYGIPDGNTVNNVDLGPNVKIFDPSMPSSDIQNTVDSVFSKMETNQFGNERYA
FLFKPGSYNVNVNVGFFTSVLGLGKTPDAVNITGAVRCEADWMGGNATCNFWRSVENV
AVTPTYSSNNLAPAGTLTWAVSQAAPMRRVHIKGGLSLWDPLGTNYDGAWSSGGFIAD
SKIDNSITSGSQQQFFTRNSQMGSWNGANWNMVFVGNNGAPTDDNAYPSTPDTVVSQT
PAIREKPFLYIDDSGNYQVFIPDLRKNSQGITWTNGLGQGTSLSIDQFYIAKPDTSTA
ESINAALSQGKNIIFTPGVYHLSDAINVTKSNTVILGLGLATLIPDNGTAAMNISDVD
GVKVSGVLFDAGAKNSPVLLKVGQDGSSADHSANPTSLSDLFFRIGGAAVGNADTSLK
INSNNVIGDDFWVWRADHGTGVGWTVNNAKNGVIVNGNNVTLYGLFVEHFKEYQTIWN
GNGGKVYFYQSELPYDVPNQASWMSNNGTQNGYASYKVADSVTSHQLFGSGIYSYFRD
SVVSENNGIEVPNASGVKVHHACSVYLSGNGEITHVVNNTGNTAKSGDMKQSVTDYPN
S

Рисунок 3. Доменная архитектура сиалидазы

Рисунок 4. Организация вторичной структуры сиалидазы (Наведите для увеличения)

Во вкладке "architectures" было найдено три белка, содержащих тот же домен.

O16313_CAEEL

Это неописанный белок из Caenorhabditis elegans. Он имеет 581 аминокислотных остатков в длину и два домена помимо F5_F8_type_С: BTB и BACK.

Рисунок 5. Доменная архитектура O16313_CAEEL

Protein: O16313_CAEEL (O16313)
Имеет домен BTB, содержащий аминокислотные остатки с 54ого до 165ого.

Обычно представлен как часть доменной архитектуры цинковых польцев, вирусных pox белков и белков, содержащих Klech мотивы. Индуцирует гомомерную и гетеромерную автодимеризацию. Может иметь ядерную и цитоплазматическую локализацию. Взаимодействует с убиквитин-связывающим белком.

Рисунок 6. BTB/POZ domain

Домен BACK, образуемый остатками с 170ого до 270ого. Схож с BTB доменом. Связывается с PF00651 и PF01344

Рисунок 7. BTB And C-terminal Kelch

Домен F5_F8_type_C расположен с 443его до 569ого аминокислотного остатка.

FA5_HUMAN

Это фактор коагуляции пятый из Homo sapiens. Он имеет 2224 аминокислотных остатков в длину и сложную доменную архитектуру помимо F5_F8_type_С. Активирует тромбоциты. Ответственен за деградацию тромбоцитов, чувствителен к влиянию витамина К. Может влиять на кровоток, среднюю скорость тока крови. Утрата функции балка может приводить к широкому спектру заболеваний.

Рисунок 8. Доменная архитектура FA5_HUMAN

Белок начинается с Cu-oxidase_3. Домен обеспечивает передачу электронов в ОВР и расположен с 65 до 197 остатка. Аналогичный домен расположен с 1641 до 1753 остатка белка.

Рисунок 9. Cu-oxidase_3 domain

Имеется 6 участков низкой сложности (low_complexity). Их мы не будем учитывать.
Два одинаковых домена F5_F8_type_C расположены с 1922 до 2058 и с 2081 до 2218 остатка.

S2YV47_9ACTN

Это неописанный белок из Streptomyces sp.. Он имеет 1031 аминокислотных остатков в длину и несколько доменов помимо F5_F8_type_С

Рисунок 10. Доменная архитектура S2YV47_9ACTN

Так, архитектура содержит Glyco_hydro_2_N (41-206) домен, участвующий в реакциях гидролиза. Является частью блока гидроксид гидролаз.

Рисунок 11. Glyco_hydro_2_N domain

Glyco_hydro_2 (207-316) является белком, гомологичным Glyco_hydro_2_N. Glyco_hydro_2_C имеет такую же структуру, начиная с 322 и до 515.

Рисунок 12. Glyco_hydro_2 domain

Так, архитектура содержит Glyco_hydro_2_N домен, участвующий в реакциях гидролиза.

DUF4982 (648-746) DUF4982 имеет такую же структуру, начиная с 322 и до 515.

Рисунок 12. DUF4982 domain

Имеется один концевой домен F5_F8_type_C, расположенный с 888 и до 1023 остатка.

Ссылки

Последовательности, использованные для выравниваний
Ссылка на проект Jalview
Pfam в Википедии https://ru.wikipedia.org/wiki/Clustal