Главная
Семестры
Обо мне
Ссылки

Выравнивание представителей домена Pfam белков с разной доменной архитектурой

Все домены белка с первого курса содержат большое количество видов (>5000), поэтому был выбран случайный домен с необходимыми характеристиками. Этим доменным семейством является Bcl-2(ID: Bcl-2; AC: PF00452). Это семейство включает в себя белки, контролирующие апоптоз митохондрий, они могут способствовать апоптозу, либо ингибировать его. Домен содержит 21 архитектуру, 1122 последовательностей, содержащихся в 227 видах и представленных 381 3D структурой.
Использовал скрипт, отбирающий последовательности с указанным доменом и составляющий таблицу для Excel, командой:
python swisspfam_to_xls.py -z /srv/databases/pfam/swisspfam.gz -p PF00452 -o bcl2.xls
И скрипт, собирающий информацию о таксономии из Uniprot:
python uniprot-to-taxonomy.py -i list.txt -o tax.xls
Все эти данные были использованы при построении таблицы с информацией о всех последовательностях, содержащих наш домен (Info), таксономией этих последовательностей (tax), сводной таблицей с информацией о принадлежности к определенной архитектуре (Pivot Table) и листом Filtered с последовательностями, отобранными для дальнейщих заданий.
Были выбраны 2 архитектуры с доменом Bcl-2 (зеленый). Первая архитектура включает в себя только этот домен (картинка ниже) и состоит из 865 последовательностей.

Вторая архитектура состоит из этого Bcl-2 с BH4 (красный). Архитектура содержит 215 последовательностей и изображена на картинке ниже.

Из членов семейства Bcl-2 выделяют одну или несколько из четырех характерных доменов гомологии, называемых областями гомологии Bcl-2 (BH). В том числе ВН4. Известно, что области BH имеют решающее значение для функции, поскольку удаление этих доменов посредством молекулярного клонирования влияет на показатели выживаемости/апоптоза.
В качестве таксона был выбран - Metazoa с подтаксонами Ecdysozoa и Chordata. Отобранные последовательности представлены на листе Filtered таблицы. ID 40 выбранных последовательностей были записаны в файл mask.txt и был запущен скрипт, достающий из выравнивания Pfam, именно эти последовательности:
python filter-alignment.py -i uni.fasta -m mask.txt -o res.fasta.
Полученные последовательности были обработаны JalView. Выравнивание проводилось "Muscle with default". Расшифровки названий:
1C - первая доменная архитектура и подтаксон Chordata;
1E - первая доменная архитектура и подтаксон Ecdysozoa;
2C - вторая доменная архитектура и подтаксон Chordata;
2E - вторая доменная архитектура и подтаксон Ecdysozoa.
Каждая из этих групп была раскрашена по консервативности 30% методом Clustal. Сслыка на проект.
С помощью этого выравнивания было построено дерево. На дереве красным выделены ветви, ведущие к Chordata, а синим - к Ecdysozoa. Желтая скобка - клада с 2 доменной архитектурой, зеленая - с 1 архитектурой. Бутстреп поддержка ветвей, соединяющих большие группы, небольшая (4-6). При этом рядом могут находиться последовательности, принадлежащие разным архитектурам и подтаксонам. Судя по всему, эти доменные архитектуры развиваются конвергентно. Возможно даже, в процессе эволюции неоднократно происходил переход от одной к другой.