Различия выравнивания выяснялись на последовательностях, для которых в процессе выполнения прошлого задания была показана гомологичность с белком E8YFS1 (гликозилтрансфераза первого семейства). Для сравнения были выбраны алгоритмы Muscle и Tcoffee.
ID/AC | Название белка | Coverage | Identity (%) | E-value | Гомологичность |
KHL12647.1 | Glycosyl transferase family 1 | 86 | 49 | 6e-103 | Да |
CEJ46846.1 | Glycosyltransferase (Uncharacterized protein) | 87 | 40 | 5e-85 | Да |
BAB75398.1 | Alr3699 protein | 85 | 40 | 6e-82 | Да |
OBQ42993.1 | Glycosyl transferase family 1 | 84 | 39 | 9e-82 | Да |
OBQ36960.1 | Glycosyl transferase family 1 | 85 | 40 | 7e-84 | Да |
ABA23179.1 | Glycosyl transferase, group 1 (EC 2.4.1.56) | 85 | 40 | 9e-84 | Да |
AFY87793.1 | Glycosyl transferase group 1 | 89 | 41 | 3e-83 | Да |
Jalview-проект с выравниваниями доступен по ссылке. Здесь можно найти выравнивание программой Muscle, а здесь находится выравнивание программой tcoffee. Ниже представлены эти же выравнивания в таком же порядке. Первое различие выравниваний наблюдается в районе 60-й позиции. Tcoffee создает две колонки, почти полностью состоящие из гэпов, а Muscle только одну. Это накладывает отпчаток и на выравнивание более близких к C-концу прилежащих остатков. Второе различие связано с 147 колонкой обоих выравниваний. Tcoffee ставит гэпы всех остальных последовательностей под 142 лейцином первой, а Muscle под 143 глицином этой же последовательности. Это мешает взаимосоответствию 146-149 колонок первого выравнивания 145-148 колонкам второго выравнивания. Третье различие заметно при рассмотрение обработки двух стоящих подряд глицинов, присутствующих во всех последовательностях кроме первой(там он один). Tcoffee поместило их в колонки 168-169 и добавило спереди почти полностью состоящую из гэпов колонку, а Muscle, где такие колонки на местах 166-167, поставило такую колонку ближе к C-концу.
Исходный белок(E8YFS1) содержит два домена, обозначнные в базе pfam как Glycosyltransferase Family 4 (57-224) PF13439 и Glycosyl transferases group 1 (239-401) PF00534. Первый домен, по данным pfam, образует 291 различную структуру. Одна из них - просто вариант дупликации обоих доменов исходного белка. Таких последовательностей 37.
Вторая структура(20 последовательностей) включает этот домен и домен деацетилации полисахаридов(эстераза). В белках эти домены разнесены на расстояние, сравнимое с их суммарной длиной в аминокислотных остатках.
Третья струтктура(25 последовательностей) включает два домена исходного белка и домен полисахаридной пирувил-трансферазы.