Гомология и выравнивание

1. Описание выбранного семейства
AC: PF17882, ID: SBD, название: OAA-family lectin sugar binding domain, число последовательностей в seed: 57 и full: 194. Доменных архитектур 39.
Для данного домена представлены 12 3D структур, каждая из которых содержит бета-цилиндр. Интересно, что есть кристаллическая структура Burkholderia oklahomensis agglutinin (BOA), которая состоит из восьми таких цилиндров. Другой пример:кристаллическая структура of glycan-bound Pseudomonas taiwanensis lectin - его 3D структура содержит углеводные фрагменты, что можно узнать, как они пространственно располагаются относительно белка.
Большая часть белков принадлежит бактериям (436), среди них больше представлены белки из представителей Actinomycetota, Pseudomonadota, Cyanobacteria и Chloroflexi. Белков, выделенных из эукариот всего 18 и из Rhodophyta выделено 13. Из архей выделено всего 2 белка, принадлежащих этому домену.
2. Описание выравнивания seed с точки зрения гомологичности всех последовательностей и их подмножеств
Выравнивание seed было скачано со страницы семейства в Pfam. В Jalview было покрашено таким образом, что аминокислоты со сходными свойствами имели один цвет, а затем для удобства была добавлена регулировка окрашивания в соответствии с процентом консервативности данной позиции. Здесь можно скачать выравнивание.
В моем выравнивании присутвует только одна аминокислота, которая встречается у всех организмов, и это триптофан на 27 позиции. Остальные аминокислоты заменены в большом количестве белков, а также между ними и триптофаном присутствует много гэпов, что нельзя выделить максимальные достоверные блоки, включающие все последовательности.
Я нашла сначала максимально достоверный блок, состоящий из большого количества последовательностей, но вот аминокислот в нем всего 4, а потом я увидела, что несколько последовательностей из того блока имеют ещё до и после этого блока схожие аминокислоты и решила их выделить в более маленький по количеству последовательностей (всего 5), зато включающий больше аминокислот (10 штук) блок.
В моем выравнивании можно найти много весьма высоко достоверных блоков, если убрать последовательности, из-за которых создается много гэпов. Сразу появляется аж 12 аминокислот, консервативных во всех белках (см. файл очень_классный_блок.fa)! А если сделать отдельное окно с белками, из-за которых появляется много гэпов, то вставленные куски на самом деле не случайны (можно также посмотреть в основном окне: внизу расположены такие последовательности), они тоже имеют свои консервативные участки, что если вырезать пустые колонки, то получится прекрасное выравнивание, в котором много окрашенных колонок (см. файл выборка_длинных_белков.fa)
Есть блоки, в которых сложно говорить что-то об эволюции данного белка: с 1 по 5 исключая 3 позицию и 35-37.
Вывод: данную выборку нужно делить на две, первая из них состоит из короткихбелков, которые, вероятно, возникли раньше. Белки этой группы хорошо соержат много сходящихся аминокислот (см. файл очень_классный_блок.fa). Вторая выборка из белков, которые содержат много вставок относительно более древних (первой группы), они также достаточно сильно похожи между собой (см. файл выборка_длинных_белков.fa).