Алгоритмы множественного выравнивания и домены белков

Различия алгоритмов множественного выравнивания

Различия выравнивания выяснялись на последовательностях, для которых в процессе выполнения прошлого задания была показана гомологичность с белком E8YFS1 (гликозилтрансфераза первого семейства). Для сравнения были выбраны алгоритмы Muscle и Tcoffee.
ID/AC Название белка Coverage Identity (%) E-value Гомологичность
KHL12647.1Glycosyl transferase family 186496e-103Да
CEJ46846.1Glycosyltransferase (Uncharacterized protein)87405e-85Да
BAB75398.1Alr3699 protein85406e-82Да
OBQ42993.1Glycosyl transferase family 184399e-82Да
OBQ36960.1Glycosyl transferase family 185407e-84Да
ABA23179.1Glycosyl transferase, group 1 (EC 2.4.1.56)85409e-84Да
AFY87793.1Glycosyl transferase group 189413e-83Да

Jalview-проект с выравниваниями доступен по ссылке. Здесь можно найти выравнивание программой Muscle, а здесь находится выравнивание программой tcoffee. Ниже представлены эти же выравнивания в таком же порядке. Первое различие выравниваний наблюдается в районе 60-й позиции. Tcoffee создает две колонки, почти полностью состоящие из гэпов, а Muscle только одну. Это накладывает отпчаток и на выравнивание более близких к C-концу прилежащих остатков. Второе различие связано с 147 колонкой обоих выравниваний. Tcoffee ставит гэпы всех остальных последовательностей под 142 лейцином первой, а Muscle под 143 глицином этой же последовательности. Это мешает взаимосоответствию 146-149 колонок первого выравнивания 145-148 колонкам второго выравнивания. Третье различие заметно при рассмотрение обработки двух стоящих подряд глицинов, присутствующих во всех последовательностях кроме первой(там он один). Tcoffee поместило их в колонки 168-169 и добавило спереди почти полностью состоящую из гэпов колонку, а Muscle, где такие колонки на местах 166-167, поставило такую колонку ближе к C-концу.

Доменные перестройки

Исходный белок(E8YFS1) содержит два домена, обозначнные в базе pfam как Glycosyltransferase Family 4 (57-224) PF13439 и Glycosyl transferases group 1 (239-401) PF00534. Первый домен, по данным pfam, образует 291 различную структуру. Одна из них - просто вариант дупликации обоих доменов исходного белка. Таких последовательностей 37.

Вторая структура(20 последовательностей) включает этот домен и домен деацетилации полисахаридов(эстераза). В белках эти домены разнесены на расстояние, сравнимое с их суммарной длиной в аминокислотных остатках.

Третья струтктура(25 последовательностей) включает два домена исходного белка и домен полисахаридной пирувил-трансферазы.


© Бусыгин Сергей, 2017