Учебный сайт Фоменко Елены

Главная Семестры Проекты Заметки

Выбор домена

Для работы был выбран домен факторов обмена гуаниловых нуклеотидов (GEFs), Sec7. AC PF01369. Он удовлетворяет всем рекомендуемым ограничениям. GEFs ускоряют обмен ГДФ на ГТФ и таким образом активируют G-белки. C помощью JalView загружено выравнивание из Pfam; раскраска ClustalX и By conservation с порогом консервативности 15%. К последовательности BIG1_HUMAN была добавлена 3D структура (PDB ID 3LTL). Работа сохранена как проект JalView: sec7.jar.

Выбор архитектур

С помощью скрипта swisspfam-to-xls.py и файла, содержащего информацию об архитектуре всех последовательностей UniProt, была получена таблица с информацией об архитектуре последовательностей, содержащих домен Sec7, на основе которой в Excel была составлена сводная таблица. Затем в таблицу были добавлены колонки с информацией о таксономической принадлежности. Для этого по идентификаторам отобранных последовательностей в UniProt были получены AC (ID Mapping), по которым были получены файлы в формате UniProt (Retrieve), которые были использованы для работы скрипта uniprot-to-taxonomy.py. Также был добавлен столбец, содержащий информацию о длине домена Sec7. Sec7 входит в 40 архитектур. Из них выбраны 2:
Sec7 (690 последовательностей)
Sec7, PH (337 послеловательностей),
PH - домен гомологии к плекстрину, характерен для белков, участвующих во внутриклеточном сигнализировании или составляющих цитоскелет.

Выбор таксона и представителей архитектур

Для изучения указанных выше архитектур был выбран таксон Metazoa (животные), и подтаксоны: клада Ecdysozoa (Линяющие) и тип Chordata (Хордовые). Для однодоменной архитектуры взяла 15 представителей Chordata и только 7 представителей Ecdysozoa, т.к. среди последних было много тех, у которых длина домена слишком мала (в 2 раза меньше нормальной). Для второй архитектуры взяла по 11 представителей с каждого подтаксона. Получилось по 22 представителя для каждой архитектуры. Выборка - на странице selected_seqs в файле Excel.

Чтобы оставить в выравнивании нужные последовательности из двух групп, был использован скрипт filter-alignment.py:
python filter-alignment.py -i sec7.fa -m selected.txt -o filter_alignment_out.fa -a "/"
При этом к выборке был добавлен BIG1_HUMAN, с известной 3D структурой (3LTL), по которой затем была добавлена разметка. Полученное выравнивание было загружено в JalView и отредактировано (удалены пустые колонки и несодержательные C- и N- концевые участки). Затем в нём были выделены группы согласно архитектуре, в каждой из них была выполнена раскраска последовательностей ClustalX, Conservation (порог 20%). Вот изображение выравнивания. После редактирования в конечном файле выравнивания JalView содержится 43 последовательности.

Файлы:
Таблица Excel
Выборка в fasta-формате
Совместное выравнивание всех последовательностей домена
Выравнивание выбранных последовательностей

Построение дерева и выводы

Закодируем доменные архитектуры и выбранные таксоны:

Архитектура: 1 - однодоменная, 2-двухдоменная. Таксоны: E - Ecdysozoa, C - Chordata.

Для реконструкции деревьев использовала два метода - Neighbour-Joining и UPGMA. Первый строит неукорененное дерево без молекулярных часов, а второй - укорененное дерево с молекулярными часами. Для построения была использована программа MEGA. Ниже приведены деревья:

Neighbour-joining

UPGMA

Особых отличий между деревьями я не обнаружила. Ветви, отделяющей архитектуры друг от друга, нет. Несколько ветвей четко разделяют белки по подтаксонам или по архитектурам. Можно предположить, что белок в процессе эволюции изменялся не раз. Можно наблюдать, как у каждого из подтаксонов присходило образование двухдоменного белка, можно наблюдать и разделение белков, произошедшее из-за оразделения подтаксонов, есть случай утраты второго домена. Разными цветами я выделила некоторые заметно отделившиеся группы. Корень, поставленный методом UPGMA, как мне кажется, может и не соответствовать правде.

Файлы:

Скобочная формула дерева Neighbour-Joining

Скобочная формула дерева UPGMA


© Фоменко Елена.