Для дальнейших действий был выбран домен DIL.
Ген dilute (разбавитель) кодирует новый тип тяжелой цепи миозина с С-концевой областью, которая имеет элементы первого (нескрученных) и второго (альфа-спиральных скрученных) типа тяжелых цепей миозина. Домен DIL без альфа спиралей находится в различных видах миозинов. В мышах была обнаружена следующая функция dilute белка: он может играть роль в разработке, обслуживании или функционировании меланоцитов и нейронов. MYO2 белок из дрожжей (Saccharomyces Cerevisiae), включающий в себя DIL домен, вовлечен в транспорт везикул. На изображении ниже представлена структура DIL на примере 2F6H - Myosin V cargo binding domain (домен DIL находится на 408-500 остатках и отмечен синим цветом).
С помощью JalView построено выравнивание семейства доменов. Применена цветовая схема Clustalx с параметром by conservation=10. Добавили 3D структуру для MYO2_YEAST. Ассоциировали 3D структуру 1OEE c MYO2_YEAST Ссылка на проект с выравниванием Ссылка на страницу Pfam со списком разных доменных архитектур с этим доменом и указанием числа последовательностей. Ссылка Pfam
Описание выбранных доменных архитектур.
1) Архитектура I: DIL - однодоменная архитектура, 136 последовательностей
2) Архитектура II: Myosin_head, IQ x 3, DIL - три разных вида доменов, 84 последовательности Семейтво Myosin_head принадлежит клану P-loop_NTPase (CL0023), к которому обчно относятся белки, выполняющие шаперон-подобные функции, помогают в сборке, функционировании и разборке белковых комплексов.
Для составления сводной таблицы был получен список последовательностей, в которых содержится исследуемый домен. Для этого был использован скрипт swisspfam-to-xls.py:
python swisspfam-to-xls.py -p PF01843 -i /srv/databases/pfam/swisspfam.gz -z -o results.txt
По этим данным и была составлена сводная таблица. Для каждого элемента списка была получена таксономия организма, в котором белок найден. Это было сделано с помощью скрипта uniprot-to-taxonomy.py, входным для которого являлся файл flat, полученный при использовании Uniprot (Retrieve).
python uniprot-to-taxonomy.py -i 2014052991GJTJ85HZ.txt -o taxonomy.txt Полученная сводная таблица.
Подтаксоны должны быть достаточно представлены последовательностями c выбранными архитектурами (не менее 5 последовательностей с каждой из архитектур в каждом из подтаксонов).
В качестве главного таксона выбрали царство Eukaryota. Подтаксоны: Metazoa (M), Fungi (F), Viridiplantae (V).
С помощью скрипта filter_alignment.py были оставлены только выбранные последовательности из выравнивания. Отредактировали выравнивание в JalView, были созданы группы по архитектурам, удалили последовательности. Добавили аннотированную последовательность MYO2_YEAST с известной 3D структурой. Ниже представлено изображение выравнивания, окрашенного по ClustalX с консервативноcтью 30. Было отмечено расположение доменов MH и DIL. В целом, в обеих доменных архитектурах домены соответствуют консервативным участкам.
Нужно филогенетическое дерево по полученному выравниванию, сначала переименуем последовательности специальныи кодом:
Архитектура 1: DIL_
Архитектура 2: MH_
Таксон Metazoa: M_
Таксон Fungi: F_
Таксон Viridiplantae: V_
Программой MEGA нужно было получить деревья любым методом, но выбранный метод не должен предполагать молекулярные часы и должен выдавать длины ветвей, поэтому я выбрал метод Maximum Likelihood, причем построил с использованием bootstrap-анализа с количеством реплик = 100. Ниже скобочная формула, подредактированное изображение дерева и выводы.
Дерево создавалось методом Maximum Likelthood (bootstrep: количество реплик = 100) в программе MEGA.
Некоторые отдельные ветви и клады обозначены для наглядной демонстрации результата. На полученной схеме видно, что белки сгруппированы скорее по таксонам, а не по архитектурам. Отдельно выделилось царство растений, в нем белки с одинаковыми архитектурами находятся рядом. В остальных кладах, видно наличие как белков различной архитектуры, так и белков различных подтаксонов (Fungi попали в одну кладу с Metazoa, и наоборот). Наверное, можно объяснить такие различия сменой архитектур в различных организмах, другие домены могли теряться и приобретаться в разных царствах, у предкового организма должен был присутствовать DIL домен).