На главную

На страницу семестров

Назад

Алгоритмы множественного выравнивания.Pfam



Pfam — база данных семейств белковых доменов. Каждое семейство в ней представлено множественным выравниванием фрагментов белковых последовательностей и скрытой марковской моделью (HMM). На март 2017 года в Pfam содержалось 16 712 записей (семейств), объединённых в 604 клана[1].



Задание 1. Различия во множественных выравниваниях, построенных разными программами


Для выполнения задания были использованы последовательности белков, гомологичных белку ELF2 из Poeciliopsis prolifica, найденных с помощью BLAST.
В таблице 1 приведены параметры найденных последовательностей.

Последовательность ELF2 Poeciliopsis prolifica

>JAO98220.1 ELF2, partial [Poeciliopsis prolifica]
MATSQHEGHANQLDLLIRAVEASGYSNVHCSDKTIEAAEALLHMDSPSSLREDRSPEAFTPQSEAAPDFL
HAAMRPDVIGETEVEITTEDCCEEDEEEDEEEEMVTSLEEPEPDNEPVRKKRAGRKTKAPHSSISNGAPD
LSFKKKPREGKAGSTTYLWEFLLDLLQDKNTCPRYIKWTQREKGIFKLVDSKAVSKLWGKHKNKPDMNYE
TMGRALRYYYQRGILAKVEGQRLVYQFKEMPKNIVIIDED


Таблица 1. Параметры найденных белков
Название белкаCoverageE-valueIdentityID/AC
spectrin beta chain, non-erythrocytic 1 isoform 2 [Mus musculus]14.00E-241NP_033286.2
spectrin beta chain, non-erythrocytic 1 isoform 1 [Mus musculus]14.00E-241NP_787030.2
spectrin beta chain, non-erythrocytic 1 [Rattus norvegicus]0,831.00E-160,93NP_001013148.1
spectrin beta chain, non-erythrocytic 1 isoform X1 [Castor canadensis]0,835.00E-150,9XP_020040264.1
spectrin beta chain, non-erythrocytic 1 [Macaca mulatta]0,831.00E-140,88NP_001253897.1
spectrin beta chain, non-erythrocytic 1 isoform X1 [Odocoileus virginianus texanus]0,832.00E-140,88XP_020770781.1
spectrin beta chain, non-erythrocytic 1 [Bos taurus]0,832.00E-140,88NP_001179205.1


Из рисунка 1 видно, что ELF2 играет важную роль в инициации трансляции. Белки этого семейства участвуют в связывании участка двойной спирали транспортной РНК. Как известно, важной частью инициации является подготовка, обеспечивающее правильное позиционирование белков. Начало трансляции обеспечивается, в частности, затратой ГТФ, связываемого ELF2. Для анализа был выбран именно ELF2, так как он имеет оптимальный размер. Так, ELF3, ELF1 и ELF1A имеют либо слишком большой, либо слишком маленький размер.



Рисунок 1. Место ELF2 в инициации трансляции у эукариот



Описание различий в выравниваниях


Выравнивание 1. Результат работы программы Clustal


Выравнивание 2. Результат работы программы ClustalO


Clustal/ClustalO



Выравнивание 3. Результат работы программы Muscle


Выравнивание 4. Результат работы программы Mafft


Muscle/Mafft



Выравнивание 5. Результат работы программы GLprobs


Выравнивание 6. Результат работы программы Probcons


GLprobs/Probcons

Вывод:

Видно, что, в целом, программы одинаково справляются с выравниями консервативных участков. Выравнивания же сложных мест разнятся в силу отличий алгоритмов и, скорее всего, платы за оказию штрафов за гэпы. Участки с расположенными друг над другом представителями разных групп, имеющими отрицательные веса в матрице BLOSSUM62, выравниваются плохо. Хуже всего выравниваются длинные участки такого состава- очевидно. Разные программы/алгоритмы старются по- разному решить задачу выравнивания за счёт, скорее всего, изменения и подбора параметнов. Из выравниваний видно, что "жадные" на гэпы/индели алгоритмы хуже справляются с выравниванием, в сравнении с "умеренными". При выравнивании необходимо осозновать, хотим ли мы строить блоки всеми доступными средствами или же хотим максимально предсказать биологическое значение полученного результата.

Лучшую воспроизводимость показали алгоритмы GLprobs и Probcons. Самое быстрое выравнивание было построено с помощью Mafft.


Принципы работы алгоритмов
Clustal основан на построении парных выравниваний и UPGMA кластерном анализе.
T-Coffee создаёт библиотеку весов парных выравниваний, может использовать данные из PDB. В нём есть расширения для оценки качества выравнивания и поиска мотивов.
MAFFT одна из самых быстрых программ за счёт использования быстрых рядов Фурье.
В MUSCLE используется три вида выравниваний: первое- быстрое O*(N**(2)*L + N*L**2), для вычисления лучшего "пути", второе- улучшенное O**(N**2 + N*L + L**2), нужно для преоценки дерева, полученного в первом, третье- уточняющее O*(N**3L), чистовое.


Задание 2. Крупные перестройки между парой белков, имеющих гомологичные участки


Основные параметры белка сиалидазы из бактерии Clostridium beijerinckii приведены в таблице 2. Используя сервис Pfam (Рисунок 2), был найден домен моего белка. Рисунок 2 демонстрирует единственный найденный F5/8 type C домен сиалидазы. Он представлен во многих факторах, обеспечивающих коагуляцию крови (5 и 8). Содержит два консервативных цистеина во многих белках, которые замыкают структуру посредством концевых дисульфидных связей. Сервис предлагает 1560 архитектур, содержащих данный домен. При сравнительном анализе видно, что, чаще всего, F5/8 type C домен представлен в двух экземплярах, располагающихся скраю последовательностей.



Рисунок 2. Результат поиска Pfam


Таблица 2. Описание сиалидазы из генома бактерии Clostridium beijerinckii
Параметр Значение
Идентификатор белка AJG99379.1
Идентификатор генома CP010086
Координаты гена в геноме 3087698..3089965
Длина гена (в парах нуклеотидов) 2268
Цепь (прямая или обратная) Прямая
Длина белка (в аминокислотных остатках) 755


Аминокислотная последовательность сиалидазы

>AJG99379.1 sialidase
MIRRNKRILSLTLSMAVFTTMFMSTSFITKAETVSLGANSEITSNASTESTAVATNIA
LNKPSTASSVTGGNTASLAVDGNAGTRWESAQGSDPQWISIDLGGSYNISGVKLNWET
AAAKDYKIQVSTDNKNWIDAYTKTGGTGGVENIAFNSTATGRYIRMLGTTRTTQYGYS
LWEFEVYGIPDGNTVNNVDLGPNVKIFDPSMPSSDIQNTVDSVFSKMETNQFGNERYA
FLFKPGSYNVNVNVGFFTSVLGLGKTPDAVNITGAVRCEADWMGGNATCNFWRSVENV
AVTPTYSSNNLAPAGTLTWAVSQAAPMRRVHIKGGLSLWDPLGTNYDGAWSSGGFIAD
SKIDNSITSGSQQQFFTRNSQMGSWNGANWNMVFVGNNGAPTDDNAYPSTPDTVVSQT
PAIREKPFLYIDDSGNYQVFIPDLRKNSQGITWTNGLGQGTSLSIDQFYIAKPDTSTA
ESINAALSQGKNIIFTPGVYHLSDAINVTKSNTVILGLGLATLIPDNGTAAMNISDVD
GVKVSGVLFDAGAKNSPVLLKVGQDGSSADHSANPTSLSDLFFRIGGAAVGNADTSLK
INSNNVIGDDFWVWRADHGTGVGWTVNNAKNGVIVNGNNVTLYGLFVEHFKEYQTIWN
GNGGKVYFYQSELPYDVPNQASWMSNNGTQNGYASYKVADSVTSHQLFGSGIYSYFRD
SVVSENNGIEVPNASGVKVHHACSVYLSGNGEITHVVNNTGNTAKSGDMKQSVTDYPN
S


Рисунок 3. Доменная архитектура сиалидазы




Рисунок 4. Организация вторичной структуры сиалидазы (Наведите для увеличения)


Во вкладке "architectures" было найдено три белка, содержащих тот же домен.



O16313_CAEEL

Это неописанный белок из Caenorhabditis elegans. Он имеет 581 аминокислотных остатков в длину и два домена помимо F5_F8_type_С: BTB и BACK.



Рисунок 5. Доменная архитектура O16313_CAEEL


Protein: O16313_CAEEL (O16313)
Имеет домен BTB, содержащий аминокислотные остатки с 54ого до 165ого.

Обычно представлен как часть доменной архитектуры цинковых польцев, вирусных pox белков и белков, содержащих Klech мотивы. Индуцирует гомомерную и гетеромерную автодимеризацию. Может иметь ядерную и цитоплазматическую локализацию. Взаимодействует с убиквитин-связывающим белком.


Рисунок 6. BTB/POZ domain

Домен BACK, образуемый остатками с 170ого до 270ого. Схож с BTB доменом. Связывается с PF00651 и PF01344

Рисунок 7. BTB And C-terminal Kelch
Домен F5_F8_type_C расположен с 443его до 569ого аминокислотного остатка.





FA5_HUMAN

Это фактор коагуляции пятый из Homo sapiens. Он имеет 2224 аминокислотных остатков в длину и сложную доменную архитектуру помимо F5_F8_type_С. Активирует тромбоциты. Ответственен за деградацию тромбоцитов, чувствителен к влиянию витамина К. Может влиять на кровоток, среднюю скорость тока крови. Утрата функции балка может приводить к широкому спектру заболеваний.



Рисунок 8. Доменная архитектура FA5_HUMAN


Белок начинается с Cu-oxidase_3. Домен обеспечивает передачу электронов в ОВР и расположен с 65 до 197 остатка. Аналогичный домен расположен с 1641 до 1753 остатка белка.

Рисунок 9. Cu-oxidase_3 domain


Имеется 6 участков низкой сложности (low_complexity). Их мы не будем учитывать.
Два одинаковых домена F5_F8_type_C расположены с 1922 до 2058 и с 2081 до 2218 остатка.



S2YV47_9ACTN

Это неописанный белок из Streptomyces sp.. Он имеет 1031 аминокислотных остатков в длину и несколько доменов помимо F5_F8_type_С



Рисунок 10. Доменная архитектура S2YV47_9ACTN


Так, архитектура содержит Glyco_hydro_2_N (41-206) домен, участвующий в реакциях гидролиза. Является частью блока гидроксид гидролаз.

Рисунок 11. Glyco_hydro_2_N domain




Glyco_hydro_2 (207-316) является белком, гомологичным Glyco_hydro_2_N. Glyco_hydro_2_C имеет такую же структуру, начиная с 322 и до 515.

Рисунок 12. Glyco_hydro_2 domain




Так, архитектура содержит Glyco_hydro_2_N домен, участвующий в реакциях гидролиза.



DUF4982 (648-746) DUF4982 имеет такую же структуру, начиная с 322 и до 515.

Рисунок 12. DUF4982 domain




Имеется один концевой домен F5_F8_type_C, расположенный с 888 и до 1023 остатка.






© Кравченко Павел
2017