Гомология и выравнивание: исследование семьи белковых доменов

Вот характеристики выбранной мной семьи белковых доменов:

Краткое описание: Средняя область белка, ассоциированного с vWA доменом. Домен vWA обнаружен в различных белках плазмы крови: факторах комплемента B, C2, CR3 и CR4; интегринах (I-домены); коллагенах VI, VII, XII и XIV типов; и других внеклеточных белках. Хотя большинство vWA-содержащих белков являются внеклеточными, наиболее древние из них, присутствующие у всех эукариот, являются внутриклеточными белками, участвующими в таких функциях, как транскрипция, репарация ДНК, рибосомальный и мембранный транспорт[1].

Домен vWA является очень распространенным в живом мире, он встречается у Бактерий, Архей и у Эукариот, у Эукариот он есть у всех или почти во всех царствах и отделах. Существуют также vWA-подобные домены.

Все белки семейства встречаются только у бактерий: 152 последовательности известно для Actinobacteria, остальные для бактерий ранообразных фил.

Далее я выбрал две многочисленные доменные архитектуры:

Задание 2

При помощи Blastp для двух последовательностей я получил DotPlot двух белков семействас разной архитектурой: по вертикали отложена последовательность домен-содержащего белка трипсиноподобной пептидазы (ID: A0A4V5MIV7_9ACTN), а по горизонтали "Нехарактерного белка Streptomyces davaonensis" (ID: K4R7Y2_STRDJ) (Рисунок 1). Видно что выровненная последовательность в обоих белках очень схожа, разрывы в линии на графике связаны с всавками или выпадениями нескольких нуклеотидов в одной или другой цепи.
dotplot
Рисунок 1. Dotplot.

Задание 3

Я решил работать с seed. Я выделил из него две большие подгруппы, белки из которых обладают некоторыми характерными консервативними позициями в seed-выравнивании. При помощи JalView я построил филогенетическое древо белков в seed и выделил две крупные ветви. Последовательности, оставшиеся вне этих ветвей имеют различия по рассмытриваемым позициям с обеими подгруппами.

tree
Рисунок 2. Эволюционное древо белков из seed.
align
Рисунок 3. Фрагмент выравнивания.
В таблицу 1 я внёс различия между верхней (самой многочисленной) подгруппой, второй выделенной и остальными. Наличие этих различий как раз является обоснованием разделения на подгруппы.
Таблица 1. Различия в последовательностях белков разных подгрупп.
Позиция в выравнивании: 45 51 54 64 65 73 77 115 128 163
Зеленая: разное A V L L G разные разные разные L V A H L V H R
Коричневая: A V H T R H W C L V G E D разное Q R A
Остальные: разное A L R A L R E D H разные A L E D A V D T R, разные
Проект можно скачать по ссылке.

Задание 4

По ссылке доступен Excel файл с таблицей выдачи Uniprot со всеми белками с доменом семейства Pfam.

[1] https://en.wikipedia.org/wiki/Von_Willebrand_factor_type_A_domain