Практикум 4.

Составление списка гомологичных белков, включающих паралоги

Из директории /P/y22/term4/Proteomes на кодомо я скопировала к себе в рабочую диреткорию файлы с протеомами 7 бактерий:

  • ACICJ: Acidiphilium cryptum (strain JF-5)
  • BURMA: Burkholderia mallei (strain ATCC 23344)
  • NEIMA: Neisseria meningitidis serogroup A / serotype 4A (strain DSM 15465 / Z2491)
  • PASMU: Pasteurella multocida (strain Pm70)
  • PSEMY: Pseudomonas mendocina
  • ROSDO: Roseobacter denitrificans (strain ATCC 33942 / OCh 114)
  • SHEDO: Shewanella denitrificans (strain OS217 / ATCC BAA-1090 / DSM 15013)
  • Затем в протеомах данных бактерий были найдены гомологи белка CLPX_ECOLI с помощью программы blastp с порогом E-value 0.0001

    cat *.fasta > all_sequences.fasta #объединила все протеомы в один файл
                        
    makeblastdb -in all_sequences.fasta -dbtype prot -out proteomes #создание базы данных из протеомов бактерий
    blastp -query ECOLI.fasta -db proteomes -outfmt 6 -evalue 0.0001 -out res.txt #запуск blastp с табличным форматом выдачи и порогом E-value 0.0001

    В результате выполнения приведенных выше команд получила список найденных последовательностей: находки из выдачи blastp

    Реконструкция и визуализация

    Затем из файла all_sequences.fasta были получены найденные последовательнсоти с помощью скрипта и осуществленно выравнивание программой muscle. Затем на kodomo программой FastME (алгоритм которой основан на принципе минимальной эволюции (Minimum evolution)) было реконструированно дерево найденных гомологов.

    модель p-distance
    Рисунок 1. Филогенетическое дерево найденных гомологов, реконструированное программой FastME с использованием модели p-distance (оценивает: число отличий/длину = доля несовпадающих позиций), не укоренено.

    Для дерева на рисунке 1 была составлена формула Newick

    Затем дерево было укоренено в среднюю точку.

    модель p-distance
    Рисунок 2. Филогенетическое дерево найденных гомологов, реконструированное программой FastME с использованием модели p-distance. Укоренено в среднюю точку.

    Если считать это дерево верно реконструированным, примеры ортологов (гомолочиные белки из разных организмов, разделение произошло в результате видообразования) являются: HSLU BURMA и HSLU PSEMY, CLPX SHEDO и CLPX ROSDO, CLPX NEIMA и CLPX SHEDO.

    Примерами паралогов (два гомологичных белка из одного организма) являются: HSLU ROSDO и CLPX ROSDO, HSLU BURMA и CLPX BURMA, HSLU SHEDO и CLPX SHEDO.

    модель p-distance
    Рисунок 3. Филогенетическое дерево найденных гомологов, реконструированное программой FastME с использованием модели p-distance. Укоренено в среднюю точку.

    На дереве 3 представлены две ортологические группы (то есть наборы попарно ортологичных белков): белок HSLU у организмов POSDO, BURMA, PSEMY, SHEDO, PASMU и белок CLPX у организмов NEIMA, SHEDO, PASMU, ROSDO, ACICJ, PSEMY, BURMA. Две представленные ортологические группы раскрашены на рисунке 3 соответственно фиолетовым и голубым.

    модель p-distance
    Рисунок 4. Филогенетическое дерево найденных гомологов, реконструированное программой FastME с использованием модели p-distance. Укоренено в среднюю точку.

    На рисунке 4 схлопнута выбранная ранее ортологические группы белков CLPX.

    филогения
    Рисунок 5. Дерево, отражающее верную филогению выбранных бактерий.

    На рисунке 5 представлено дерево, отражающее верную филогению выбранных бактерий. Можно заметить, что на рисунках 2 и 3 HLSU SHEDO и HLSU PASMU, CLPX SHEDO и CLPX PASMU являются сестринскими группами, аналогично HLSU ROSDO и HLSU ACICJ, CLPX ROSDO и CLPX ACICJ, что совпадает с филогенией бактерий на рисунке 5.