Деревья по нуклеотидным последовательностям. Паралоги.

1 - Построение дерева по нуклеотидным последовательностям

С помощью EMBL я, проанализировав(глядя в экран на аннотации к геному и ища тэги 16s rRNA) геномы исследуемых бактерий нашел в каждом по 16s рРНК и вырезал программой seqret.

Название бактерии	Мнемоника	AC записи EMBL	Начало	Конец	цепь
Bacillus subtilis	BACSU	AL009126	30279	31832	+
Enterococcus faecalis	ENTFA	AE016830	248466	249987	+
Geobacillus kaustophilus	GEOKA	BA000043	10421	11973	+
Lactobacillus delbrueckii	LACDA	CR954253	45160	46720	+
Lactobacillus acidophilus	LACAC	CP000033	59255	60826	+
Staphylococcus epidermidis	STAES	AE015929	1598006	1599559	-
Clostridium botulinum	CLOB1	CP000726	9282	10783	+
Finegoldia magna	FINM2	AP008971	197837	199361	+

Далее все последовательности я сложил в 1 файл, выровнял программой Muscle в JalView, загрузил результат выравнивания в MEGA, где реконструировал дерево (Minimal Evolution, Bootstrap)
here would be picture but it's missed. Sorry :(

А вот, что выдал бутстреп в виде консенсусного дерева(топология получилась точно такая же)
here would be picture but it's missed. Sorry :(

Топология дерева правильная(правильные ветви, как всегда, подчеркнуты):
{ENTFA, STAES, GEOKA, BACSU, CLOB1, FINM2}vs{LACDA, LACAC}
{ENTFA, STAES, GEOKA, BACSU, LACDA, LACAC}vs{CLOB1, FINM2}
{STAES, GEOKA, BACSU, CLOB1, FINM2}vs{LACDA, LACAC, ENTFA}
{STAES, GEOKA, BACSU}vs{LACDA, LACAC, CLOB1, FINM2, ENTFA}
{GEOKA, BACSU}vs{LACDA, LACAC, CLOB1, FINM2, ENTFA, STAES}

2 - построение и анализ дерева, содержащего паралоги

Итак, взяв в свисспроте последовательность белка CLPX_BACSU, и (преобразовав в базу данных функцией makeblastdb) использовав в качестве базы данных proteo.fasta я нашел гомологи (с помощью функции blastp) этого белка в своих организмах, затем оттуда взял id белков и с помощью сервиса retrieve на юнипроте вытащил последовательности белков, и там же на сайте с помощью алгоритма Clustalo их выравнял и отправил в программу MEGA, где построил дерево методом Minimal Evolution
here would be picture but it's missed. Sorry :(

Итак, найдем несколько пар ортологов(их тут очень много, но выберем 3, бросающиеся в глаза):
CLPX_BACSU и CLPX_GEOKA
HSLU_GEOKA и HSLU_STAES
HSLU_LACDA и HSLU_LACAC
И несколько пар паралогов(которых тоже очень много):
B0S3J0_FINM2 и B0S3X9_FINM2
CLPX_BACSU и CLPY_BACSU (туда же CLPC_BACSU и CLPE_BACSU)
Q5L436_GEOKA и CLPX_GEOKA