Эволюционные домены. Pfam


Используемый домен в задании по БД Pfam: PF02540 (NAD synthase)
Из 15 доменных организаций выбрала 2: GATase и GATase + GMP_synt_C

Археи Бактерии Эукариоты Вирусы
222 3835 375 1


Было выбрано 20 последовательностей белков двух доменных архитектур. Для этого была создана сводная таблица последовательностей с указанием длины каждой, доменной архитектуры, принадлежности к определенному виду, царству. (Для отбора нужных последовательностей использовался скрипт swisspfam_to_xls.py:

python swisspfam_to_xls.py -i /srv/databases/pfam/swisspfam.gz -o A2.xls -z -p PF02540

Excel-файл с выбранными последовательностями

Было проведено выравнивание двух групп последовательностей в пределах домена.
Для того, чтобы оставить в выравнивании Full из БД Pfam только нужные последовательности из 2 групп, был использован скрипт filter_alignment.py.

Было построено филогенетическое дерево (fprotdist, fneighbor). Вид дерева в программе MEGA:


Синий - 1 группа
Зелёный - 2 группа

Скобочная форма: (GUAAB_NATP:0.78540,((A4FXS8_MET:0.63433,A6UTE3_MET:0.31661):0.26143, ((((B1MY20_LEU:0.29375,(C2DG59_ENT:0.24499,GUAA_ARCB4:0.41270):0.08785):0.07398, Q0SQS1_CLO:0.61498):0.04249,(B1Q9U9_CLO:0.40322,C2SEK1_BAC:0.24897):0.10429):0.05282, ((((B9LY68_BOR:0.14558,Q0SL37_BOR:0.10159):0.07178,B8F166_BOR:0.08404):0.71726, (((GUAAB_SULT:0.39997,(A0B5Q0_MET:0.51346,A8ME23_CAL:0.87369):0.21157):0.10665, GUAAB_THEV:0.82966):0.16505,(GUAAB_PYRA:0.14093,B6YVR0_THE:0.24891):0.21845):0.08057):0.01328, B9ACD4_MET:0.58927):0.06438):0.07768):0.31563,C1HV94_NEI:0.52074);

Полученное дерево видимо разделяется на 2 конкретные ветви (с одним и двумя доменами, соответственно). Вполне возможно, что слияние доменов произошло единожды и передавалось по наследству. Правда один белок, у которого должно быть 2 домена, попал в группу белков с одним доменом (возможно произошло ошибочное выравнивание).
© Dzama Margarita,2010-2011