Учебный сайт Юдиной А.С.

Главная

Обо мне

Семестры

Реконструкция эволюции доменной архитектуры.

Построение выравнивания представителей домена Pfam белков с разной доменной архитектурой.

Для работы над данным пректом было выбрано семейство доменов LPMO_10, представители которого находятся в структуре хитин-связывающих белков (я встречалась с этим белком в первом семестре chitin-binding protein. Этот домен встречается в ассоциации с широким набором связывающих целлюлозу доменов. Рассматриваемое семейство доменов состоит из двух очень родственных белков, которые функционируют как С-1 и С-4 расщепляющие полисахариды монооксидазы. Так же этот домен встречается в белках, функция которых на сегоднящний момент не известна.
Название: Lytic polysaccharide mono-oxygenase, cellulose-degrading
AC: LPMO_10
ID: PF03067
Выбранный домен встречается в 1827 последовательностх, входит в 55 доменных архитектур.
Больше информации на странице PFAM.

В программе Jalveiw было открыто выравнивание всех, последовательностей содержащих выбранный домен. Раскраска Clustal. Проект выравнивания:lpmo_project.jvp, выравнвание в формате fasta: lpmo.mfa.

I этап

Была получена информация об архитектуре всех последовательностей, входящих в данное семейство. Результаты представлены в виде таблицы (лист PF03067).
Команда: python swisspfam-to-xls.py -i /srv/databases/pfam/swisspfam.gz -z -p PF03067 -o PF03067.xls
Далее на основе полученнной таблицы была получена сводная таблица, строки которой AC последовательностей, а столбцы - ID доменов.

II этап

Теперь были выбраны две доменные архитектуры:

1 architecture Входит в 1405 последовательностей Состав: LPMO_10
2 architecture Входит в 117 последовательностей Состав: LPMO_10 и CBM_2
(домен, обладающий карбогидрат связывающей активностью)

Теперь из сводной таблицы с применением фильтров были выделены AC последовательностей, содержащих данные доменные архитектуры.
По AC с сайта Uniprot были скачаны данные последовательности.
Далее с помощью скрипта для последовательностей была определена таксономия (kbcn tax_all).
Команда: python uniprot-to-taxonomy.py -i sequences_Uniprot.txt -o taxonomy.xls

III этап

На основе сводной таблицы была составлена таблица содержащая AC последовательностей, имеющих доменные архитектуры 1 и 2. В помощью функции ВПР в нее была перенесена информация по таксономии, добавлен столбец с длинами домена LPMO_10 (из листа PF03067).
Теперь среди представителей архимектур 1 и 2 были выбраны выбраны последовательности, относящиеся к таксону Bacteria и подтаксонам Actinobacteria и Proteobacteria. Выбор обозначен "*".

Результат работы: PF03067.xlsx

IV этап

Из исходного выранвивания, полученного на I этапе, были выбраны только выбранные последовательности.
Команда: python filter-alignment.py -i lpmo.mfa -m chosen.txt -o align_selected.mfa -a "_"
Где файл chosen.txt получен с использованием фильтра в программе Excel и содержит АС отобранных последовательностей.

Полученное выравнивание открыто в Jalview, удалены пустые позиции, убраны плохо выровненные концевые участки, удалены явно выбивающиеся последоватлеьности. Произведено деление на группы, согласно принадлежности к доменной архитектуре, выполнена раскраска Clustal по группам с 20% идентичности.

Рисунок 1
Нажний блок - 1 архитектура, верхний - 2 архитектура.

В обеих группах наблюдается множетсво гэпов, при этом первая группа 1 архитектуры содержит несколько больше консервативных позиций, для архитектуры 2 (особенно первые 10 последовательностей) характерно наличие участков, не встречающихся в других последовательностях. Но имеются абсолютно консервативные позици идля обеих групп.

Проект выранивания: lpmo_group_project.jvp.

Построение филогенетического дерева последовательностей домена.

На основе отредактированного в Jalview выравнивания было построено филогенетическое дерево в программе MEGA. Метод - Neighbor Joining, проверка - bootstrap с числом копий 100.

Обозначения: 1 - первая архитектура, 2 - вторая архитектура, А - Actinobacteria, P - Proteobacteria.

Из дерева видно, что клады соответсвуют либо связке архитектура+подтаксон (2_А, 1_Р, 1_А), либо подтаксону. При этом дерево явно поделено на две "части", соответсвующие подтаксонам. Можно сделать вывод, что архитектуры возникли раньше, чем разделились подтаксоны, так как в обоих подтаксонах присутствуют обе архитектуры. Однако в кладах обоих подтаксонов встречаются ветви, несущие последовательности другого подтаксона, что делает анализ затруднительным, получается четко разделить подтаксоны нельзя.

Скобочная форма дерева: nj_lpmo.nwk.


© Юдина Анастасия, 2016