1. Описание выбранного домена
Я выбрал домен,с белками, содержащими который, мы работаем в лаборатории.
АС: PF05199
ID: GMC_oxred_C
Функция:
Данный домен содержат ферметы суперсемейства глюкоза-метанол-холин оксидоредуктаз GMC-superfamily. Белки данного семейства, вообще, содержат как минимум два домена: N-коцевой, связывающий
кофактор FAD, и мною выбранный С-концевой, осуществляющий каталитическую активность. Последний содержит два каталитических остатка: гистидин (виден на выравнивании как очень консервативный), депротонирующий гидроксильные группы в каталитическом акте, и аспарагин (либо гистидин),
стабилизирующий анион (гидроксил без протона).
Из изображения Jmol видна консервативность каталитических аминокислот в домене.
Число различных доменных архитектур с данным доменом: 77
Число представителей по таксонам высшего порядка:
Alveolata
|
Euglenozoa
|
Stramenopiles
|
Metazoa
|
Amoebozoa
|
Fungi
|
Rhizaria
|
Viridiplantae
|
Ichthyosporea |
Choanoflagellida
|
Heterolobosea
|
Bacteria
|
Archaea
|
Viruses
|
8
|
8
|
6
|
6
|
3
|
139
|
1
|
28
|
1
|
1
|
1
|
1206
|
30
|
1
|
Ccылка на страницу домена в Pfam
Общее выравнивание из Pfam
2. Выбор доменных архитектур
Первая доменная архитектура наиболее распространена: 4542 представителей ею обладают. Первый домен в этой архитектуре - это N-коцевой, связывающий
кофактор FAD, домен. Вторая архитектура более скромна: имеет лишь 101 представителя. Новый домен DAO - это домен оксидаз D-амино кислот, которые заменяют
аминогруппу на кетогруппу.
К сожалению, скрипт swisspfam_to_xls.py у меня не сработал, поэтому пришлось пойти иным путем, для того чтобы получить информацию об архитектуре всех последовательностей,
содержащих выбранные домены.
На странице с доменными архитектурами Pfam кликнул показать все последовательности с данной архитектурой и копировал содержимое в файл.
Воспользовался командой awk в командной строке, чтобы получить все ID.
Не использовал ID mapping, так как было известно, что сервис Uniprot Retrieve способен осуществлять поиск и по ID.
Скачал полные записи всех последовательностей.
3. Выбор таксонов
Скрипт python uniprot_to_taxonomy.py прекрасно сработал.
Для перовой доменной архитектуры были выбрано несколько царств: животные, сосудистые растения, бактерии, археи, грибы.
Вторая оказалась менее богатой на таксоны: взял два отдела бактерий - актино- и протеобактерий.
В файле Exel находится полная информация о таксономии представителей каждой доменной архитектуры, а также выбранных последовательностей.
4. Выбор представителей архитектур
Чтобы оставить в имеющемся выравнивании лучших представителей архитектур, я попытался воспользоваться скриптом filter_alignment.py. Он,
к несчастью, не сработал. Я решил эту проблему,
использовав свой скрипт fasta2csv.final.py, приготовленные на занятиях по питону,
и написав свой скрипт filter.py, который выделяет из выдачи предыдущего по ID необходимые последовательности.
Мой подход не учитывает длину домена, поэтому изначально я с избытком выбрал представителей, а затем просто удалил из выравнивания в Jalview плохие последовательности.
Итоговое выравнивание представлено здесь.