Построение и анализ дерева с паралогами и гомологами

Был произведен поиск достоверных гомологов белка CLPX организма E.Coli, среди бактерий из практикума №1. Полное название белка - ATP-dependent Clp protease ATP-binding subunit ClpX.
Для начала были скачаны протеомы /P/y17/term4/Proteomes и сложены в один файл с помощью команды
cat XXXX.fasta >> proteomes.fasta
Так протеомы бактерий дописывались в конец файла proteomes.fasta.
Далее для поиска гомологов использовался локальный blastp. Для этого создавалась собственная база данных командой:
makeblastdb -in proteomes.fasta -dbtype prot -out protdata
Далее запущен blastp. Установлен порог на E-value - 000.1, и на размер слова - 6, чтобы гомологи получились достовернее.
blastp -task blastp -query clpx_ecoli.fasta -db protdata -evalue 0.001 -word_size 6  -outfmt 7 -out blastp.txt


Выдача программы представлена ниже. Всего находок - 31.

query id, subject id, identity, alignment length, mismatches, gap opens, q. start, q. end, s. start, s. end, evalue, bit score
sp|P0A6H1|CLPX_ECOLI	sp|Q8ZC66|CLPX_YERPE	92.69	424	30	1	1	424	1	423	0.0	 805
sp|P0A6H1|CLPX_ECOLI	sp|Q21KA8|CLPX_SACD2	75.82	426	97	3	1	421	1	425	0.0	 645
sp|P0A6H1|CLPX_ECOLI	sp|P57981|CLPX_PASMU	73.70	403	104	1	13	413	7	409	0.0	 612
sp|P0A6H1|CLPX_ECOLI	sp|Q6G3Z2|CLPX_BARHE	71.01	407	115	3	9	415	11	414	0.0	 588
sp|P0A6H1|CLPX_ECOLI	sp|A5FX05|CLPX_ACICJ	68.01	422	131	4	1	422	1	418	0.0	 583
sp|P0A6H1|CLPX_ECOLI	sp|A1B1H7|CLPX_PARDP	71.15	416	115	5	9	423	9	420	0.0	 580
sp|P0A6H1|CLPX_ECOLI	sp|Q9JTX8|CLPX_NEIMA	69.21	406	117	2	15	413	8	412	0.0	 557
sp|P0A6H1|CLPX_ECOLI	sp|A1B5T0|HSLU_PARDP	40.28	144	80	2	66	209	5	142	2e-24	 103
sp|P0A6H1|CLPX_ECOLI	sp|A1B5T0|HSLU_PARDP	32.62	233	97	7	177	404	241	418	3e-21	94.4
sp|P0A6H1|CLPX_ECOLI	sp|Q21H71|HSLU_SACD2	47.52	101	52	1	66	166	5	104	5e-23	99.8
sp|P0A6H1|CLPX_ECOLI	sp|Q21H71|HSLU_SACD2	32.34	235	98	7	177	406	245	423	9e-20	90.1
sp|P0A6H1|CLPX_ECOLI	sp|Q6G5G0|HSLU_BARHE	35.02	237	89	7	157	388	228	404	4e-22	97.1
sp|P0A6H1|CLPX_ECOLI	sp|Q6G5G0|HSLU_BARHE	45.10	102	55	1	66	167	6	106	9e-20	90.1
sp|P0A6H1|CLPX_ECOLI	sp|Q8ZJJ5|HSLU_YERPE	45.00	100	54	1	66	165	5	103	2e-21	95.1
sp|P0A6H1|CLPX_ECOLI	sp|Q8ZJJ5|HSLU_YERPE	34.42	215	82	6	177	386	249	409	1e-20	92.8
sp|P0A6H1|CLPX_ECOLI	sp|P57968|HSLU_PASMU	34.33	233	91	8	177	403	249	425	9e-21	93.2
sp|P0A6H1|CLPX_ECOLI	sp|P57968|HSLU_PASMU	45.00	100	54	1	66	165	5	103	2e-20	92.4
sp|P0A6H1|CLPX_ECOLI	tr|A5FYD7|A5FYD7_ACICJ	44.23	104	53	2	66	167	8	108	2e-20	92.0
sp|P0A6H1|CLPX_ECOLI	tr|A5FYD7|A5FYD7_ACICJ	32.27	251	112	5	169	414	235	432	2e-17	83.6
sp|P0A6H1|CLPX_ECOLI	tr|A1B8N4|A1B8N4_PARDP	23.81	315	168	9	74	377	465	718	1e-06	50.1
sp|P0A6H1|CLPX_ECOLI	tr|A0A0H2W8E5|A0A0H2W8E5_YERPE	25.00	188	93	7	28	192	148	310	2e-05	46.2
sp|P0A6H1|CLPX_ECOLI	tr|A0A384KS70|A0A384KS70_YERPE	34.62	78	45	2	115	192	188	259	2e-05	45.8
sp|P0A6H1|CLPX_ECOLI	tr|A0A0H3LXZ4|A0A0H3LXZ4_BARHE	35.06	77	44	2	115	191	192	262	3e-05	45.4
sp|P0A6H1|CLPX_ECOLI	tr|A5FVF9|A5FVF9_ACICJ	35.06	77	44	2	115	191	193	263	5e-05	44.7
sp|P0A6H1|CLPX_ECOLI	tr|A1AZV8|A1AZV8_PARDP	36.84	76	42	2	116	191	191	260	6e-05	44.3
sp|P0A6H1|CLPX_ECOLI	sp|Q6G5R1|RUVB_BARHE	24.24	132	72	3	63	190	12	119	9e-05	43.5
sp|P0A6H1|CLPX_ECOLI	tr|Q9CNJ2|Q9CNJ2_PASMU	33.33	78	46	2	115	192	186	257	2e-04	43.1
sp|P0A6H1|CLPX_ECOLI	sp|Q9JUB0|RUVB_NEIMA	33.90	118	51	5	74	190	37	128	2e-04	42.7
sp|P0A6H1|CLPX_ECOLI	tr|Q9CKU5|Q9CKU5_PASMU	22.28	193	96	7	28	192	148	314	5e-04	41.6
sp|P0A6H1|CLPX_ECOLI	tr|A1BBJ2|A1BBJ2_PARDP	30.59	85	53	3	115	199	192	270	5e-04	41.6
sp|P0A6H1|CLPX_ECOLI	tr|A0A0U1RJ22|A0A0U1RJ22_NEIMA	26.92	156	85	6	65	219	12	139	7e-04	40.8


Два гомологичных белка будем называть ортологами, если они: а) из разных организмов; б) разделение их общего предка на линии, ведущие к ним, произошло в результате видообразования. Два гомологичных белка из одного организма будем называть паралогами.

Последовательности были собраны в один файл и выровнены веб-версией Muscle. Затем, с помощью программы MEGA было получено дерево, методом - Neighbour-Joining.

На представленном дереве попарно ортологами являются белки внутри красной, серой или фиолетовой рамок. Они выполняют одинаковую функцию, гомологичны, имеют одинаковое название и есть у организмов разных видов.

Подчеркнутые зеленым или синим цветом белки - это примеры паралогов. Зеленый цвет относится к виду - PARDP, а синий к виду - NEIMA. Внутри своей "цветовой" группы они попарно являются паралогами, так как они гомологичны и принадлежат одному организму.

Пример дупликации выделен овалом голубого цвета. Два белка присутствуют почти у всех огранизмов, и при этом выполняют различные функции. Белки CLPX и HSLU представляют собой разные субъединицы АТФ-зависимой протеазы. Также пары паралогов являются примером дупликации.

Разделение путей эволюции белков в результате видообразования произошло, например, при кластеризации белков из красной, серой или фиолетовой рамок.

© Нестеренко Екатерина 2019