Kodomo

Пользователь

Доменные архитектуры от Луки

Workflow

  1. Выберите свой домен
  2. Выберите какие-нибудь две архитектуры, в которых участвует домен:
    • Зайдите на сайт Pfam

    • Введите имя домена в поисковую строку
    • Перейдите на вкладку Architectures
    • Выберите такие архитектуры, для которых есть много (от 100 до 1000) представителей
  3. Сделайте сбалансированную по таксонам выборку из ~15 последовательностей для каждой архитектуры. (На выходе: тексовый файл, в котором на каждой строчке один ID, при этом к нему подписана архитектура и царство):
    • Ткните в show sequences на сайте Pfam под вашей архитектурой
    • Выделите получившийся список, скопируйте в текстовый редактор (или эксель), и оставьте от него только первое слово – идентификатор

    • Выберите из них случайным образом 100~200 идентификаторов (скорее всего, из них можно будет сделать хорошую выборку)
    • Зайдите на сайт UniProt, выберите вкладку Retrieve, вставьте в формочку выбранные идентификаторы, запустите поиск, из выбранных вариантов откройте текстовую выдачу

    • В текстовом представлении базы нужно найти по одному представителю 5 царств эукариот, по одному представителю 5 царств бактерий и по одному представителю 5 царств архей. В итоге мы получаем снова список ID белков.
      • Либо вручную:
        • таксономия ищется по содержимому поля OC, текстовым поиском "OC Archae", "OC Bacteria", "OC Eukaryota" можно найти подходящие таксоны
        • для записей с подходящим таксоном несколькими строками выше нужно взять ID
        • для каждого найденного ID пишите строку вида 1_A_ID, где 1 или 2 – номер архитектуры, A/B/E обозначает архей/бактерий/эукариот, ID – найденный ID

      • Либо воспользуйтесь скриптом, который переименует ваши ID правильным образом, и тогда останется только выбрать нужные ID

  4. Скачайте полное выравнивание всех последовательностей вашего домена
    • Зайдите на сайт Pfam, вбейте в поиск назавние домена
    • Тык Alignments, тык full, формат = FASTA, остальное не важно, тык generate
  5. Профильтруйте добытое варавнивание приложенным скриптом, чтобы оставить в нём только выбранные ID и заменить названия последовательностей

  6. Откройте выравнивание редактором выравниваний JalView (Launch Deskop Version, в апплете недостаточно функциональности)

    • И сразу edit -> remove gap columns

    • И сразу color -> clustal

    • И сразу view -> overview

    • Можно полюбоваться
  7. Перевыровняйте ваше выравнивание (в Pfam всё не идеально).
    • edit -> remove all gaps

    • web services -> alignment -> tcoffee with defaults

    • и снова color -> clustal, view -> overview

  8. Постройте дерево по вашему выравниванию
    • calculate -> tree -> neighbor joining using BLOSUM

Список доменов Луки

2-Hacid_dh
2-Hacid_dh_C
AAA
ABC_tran
Acetyltransf_1
ACT
AhpC-TSA
Amidohydro_1
Arg_tRNA_synt_N
ATP-synt_ab
ATP-synt_ab_C
ATP-synt_ab_N
CBS
Cpn60_TCP1
CPSase_sm_chain
DEAD
DHHA1
DHO_dh
Enolase_C
Enolase_N
Epimerase
Flavoprotein
GATase
GATase_2
Glycos_transf_1
Glycos_transf_2
GTP_EFTU
GTP_EFTU_D2
Ham1p_like
Helicase_C
Hexapep
HGTP_anticodon
HHH
HIT
KH_2
Lactamase_B
Lyase_1
NAD_synthase
NTP_transferase
OTCace
OTCace_N
PALP
Peptidase_M24
PGK
PGM_PMM_I
PGM_PMM_II
PGM_PMM_III
PGM_PMM_IV
PK
PK_C
polyprenyl_synt
Prenyltransf
Pribosyltran
Pyr_redox
Ribosomal_L1
Ribosomal_L11
Ribosomal_L11_N
Ribosomal_L14
Ribosomal_L2
Ribosomal_L2_C
Ribosomal_L5
Ribosomal_L5_C
Ribosomal_L6
Ribosomal_S10
Ribosomal_S11
Ribosomal_S12
Ribosomal_S13
Ribosomal_S19
Ribosomal_S2
Ribosomal_S3_C
Ribosomal_S5
Ribosomal_S5_C
Ribosomal_S7
Ribosomal_S8
Ribosomal_S9
RNA_pol_Rpb1_1
RNA_pol_Rpb1_2
RNA_pol_Rpb1_3
RNA_pol_Rpb1_4
RNA_pol_Rpb1_5
RNA_pol_Rpb2_1
RNA_pol_Rpb2_2
RNA_pol_Rpb2_3
RNA_pol_Rpb2_6
RNA_pol_Rpb2_7
RNase_HII
RrnaAD
S1
S4
SIS
SRP_SPB
SRP54
SRP54_N
Sua5_yciO_yrdC
Thymidylate_kin
Topoisom_bac
Toprim
tRNA_anti
tRNA-synt_1
tRNA-synt_1c
tRNA-synt_1c_C
tRNA-synt_1d
tRNA-synt_2
tRNA-synt_2b
tRNA-synt_2c
tRNA-synt_2d
Trp_syntA
TruB_N