Доменные архитектуры от Луки
Workflow
- Выберите свой домен
- Выберите какие-нибудь две архитектуры, в которых участвует домен:
Зайдите на сайт Pfam
- Введите имя домена в поисковую строку
- Перейдите на вкладку Architectures
- Выберите такие архитектуры, для которых есть много (от 100 до 1000) представителей
- Сделайте сбалансированную по таксонам выборку из ~15 последовательностей для каждой архитектуры. (На выходе: тексовый файл, в котором на каждой строчке один ID, при этом к нему подписана архитектура и царство):
- Ткните в show sequences на сайте Pfam под вашей архитектурой
Выделите получившийся список, скопируйте в текстовый редактор (или эксель), и оставьте от него только первое слово – идентификатор
- Выберите из них случайным образом 100~200 идентификаторов (скорее всего, из них можно будет сделать хорошую выборку)
Зайдите на сайт UniProt, выберите вкладку Retrieve, вставьте в формочку выбранные идентификаторы, запустите поиск, из выбранных вариантов откройте текстовую выдачу
- В текстовом представлении базы нужно найти по одному представителю 5 царств эукариот, по одному представителю 5 царств бактерий и по одному представителю 5 царств архей. В итоге мы получаем снова список ID белков.
- Либо вручную:
- таксономия ищется по содержимому поля OC, текстовым поиском "OC Archae", "OC Bacteria", "OC Eukaryota" можно найти подходящие таксоны
- для записей с подходящим таксоном несколькими строками выше нужно взять ID
для каждого найденного ID пишите строку вида 1_A_ID, где 1 или 2 – номер архитектуры, A/B/E обозначает архей/бактерий/эукариот, ID – найденный ID
Либо воспользуйтесь скриптом, который переименует ваши ID правильным образом, и тогда останется только выбрать нужные ID
- Либо вручную:
- Скачайте полное выравнивание всех последовательностей вашего домена
- Зайдите на сайт Pfam, вбейте в поиск назавние домена
- Тык Alignments, тык full, формат = FASTA, остальное не важно, тык generate
Профильтруйте добытое варавнивание приложенным скриптом, чтобы оставить в нём только выбранные ID и заменить названия последовательностей
Откройте выравнивание редактором выравниваний JalView (Launch Deskop Version, в апплете недостаточно функциональности)
И сразу edit -> remove gap columns
И сразу color -> clustal
И сразу view -> overview
- Можно полюбоваться
- Перевыровняйте ваше выравнивание (в Pfam всё не идеально).
edit -> remove all gaps
web services -> alignment -> tcoffee with defaults
и снова color -> clustal, view -> overview
- Постройте дерево по вашему выравниванию
calculate -> tree -> neighbor joining using BLOSUM
Список доменов Луки
2-Hacid_dh 2-Hacid_dh_C AAA ABC_tran Acetyltransf_1 ACT AhpC-TSA Amidohydro_1 Arg_tRNA_synt_N ATP-synt_ab ATP-synt_ab_C ATP-synt_ab_N CBS Cpn60_TCP1 CPSase_sm_chain DEAD DHHA1 DHO_dh Enolase_C Enolase_N Epimerase Flavoprotein GATase GATase_2 Glycos_transf_1 Glycos_transf_2 GTP_EFTU GTP_EFTU_D2 Ham1p_like Helicase_C Hexapep HGTP_anticodon HHH HIT KH_2 Lactamase_B Lyase_1 NAD_synthase NTP_transferase OTCace OTCace_N PALP Peptidase_M24 PGK PGM_PMM_I PGM_PMM_II PGM_PMM_III PGM_PMM_IV PK PK_C polyprenyl_synt Prenyltransf Pribosyltran Pyr_redox Ribosomal_L1 Ribosomal_L11 Ribosomal_L11_N Ribosomal_L14 Ribosomal_L2 Ribosomal_L2_C Ribosomal_L5 Ribosomal_L5_C Ribosomal_L6 Ribosomal_S10 Ribosomal_S11 Ribosomal_S12 Ribosomal_S13 Ribosomal_S19 Ribosomal_S2 Ribosomal_S3_C Ribosomal_S5 Ribosomal_S5_C Ribosomal_S7 Ribosomal_S8 Ribosomal_S9 RNA_pol_Rpb1_1 RNA_pol_Rpb1_2 RNA_pol_Rpb1_3 RNA_pol_Rpb1_4 RNA_pol_Rpb1_5 RNA_pol_Rpb2_1 RNA_pol_Rpb2_2 RNA_pol_Rpb2_3 RNA_pol_Rpb2_6 RNA_pol_Rpb2_7 RNase_HII RrnaAD S1 S4 SIS SRP_SPB SRP54 SRP54_N Sua5_yciO_yrdC Thymidylate_kin Topoisom_bac Toprim tRNA_anti tRNA-synt_1 tRNA-synt_1c tRNA-synt_1c_C tRNA-synt_1d tRNA-synt_2 tRNA-synt_2b tRNA-synt_2c tRNA-synt_2d Trp_syntA TruB_N