Паралоги, визуализация

В отчете содержатся скоращения из первого практикума, они продублированы в таблице 1.

Таблица 1. Соотвествие видового и мнемонического названий
Видовое название Мнемоническое название
Yersinia pestis YERPE
Escherichia coli ECOLI
Haemophilus influenzae HAEIN
Pasteurella multocida PASMU
Pseudomonas mendocina PSEMY
Neisseria meningitidis NEIMA
Polynucleobacter asymbioticus POLAQ

Для поиска гомологов были использованы протеомы бактерий из первых трех заданий, файл был получен командой:

cat ECOLI.fasta YERPE.fasta HAEIN.fasta PASMU.fasta PSEMY.fasta NEIMA.fasta POLAQ.fasta > ~/proteom.fasta

Он был перемещен в директорию блока, проиндексирован для blastp и использован в качестве базы данныз для выравнивания:

makeblastdb -dbtype prot -in proteom.fasta
blastp -query CLPX_ECOLI.fasta -db proteom.fasta -evalue 0.001 -out al2

В итоге найденные выравнивания содержатся в файле.

Для постройки дерева AC найденных белков были скопированы в форму поиска Uniprot, отображены на странице и скачены в файл. Далее было построено выравнивание и дерево (выравнивание с помощью muscle, дерево с помощью метода наибольшего правдоподобия из MEGA). В дереве были выделены семейства CLPX и HSLU (изображены на рисунке 1), на примере которых найдены паралоги и ортологи. Например, CLPX_HAEIN и HSLU_HAEIN, CLPX_PASMU и HSLU_PASUMU, CLPX_PSEMY и HSLU_PSEMY - три пары паралогов, а CLPX_PASMU и CLPX_HAEIN, HSLU_HAEIN и HSLU_PASMU, CLPX_PSEMY и CLPX_PASMU - три пары ортологов.

Общее дерево с раскрашенными семействами
Рисунок 1. Общее дерево с раскрашенными семействами (синее - CLPX, красное - HSLU)

Далее ортологичные группы с более чем тремя последовательностями были "схлопнуты". Такими оказались группа CLPX (синяя) - АТФ-зависимые CLP протеазы из всех бактерий первого практикума и группа HSLU (красная) - субъединцы АТФ-зависимых протеаз из ECOLI, YERPE, PSEMY, PASMU и HAEIN. Филогения CLPX полностью повторяет филогению первого практикума, а филогения HSLU отливается тем, что кишечная и чумная палочки не объеденины рисунок 1. Компактизированное изображение представлено на рисунке 2.

Общее дерево с схлопнутыми семействами
Рисунок 2. Общее дерево с "схлопнутыми" семействами (синее - CLPX, красное - HSLU)