"Реконструкция деревьев по нуклеотидным последовательностям"

№1 Построение дерева по нуклеотидным последовательностям

AC записей EMBL и координаты генов рРНК:

AE015929 STAES	1598006-1599559 (compl.)
BA000018 STAA1 506161-507715
AL591974 LISMO 37466-39020
BA000043 GEOKA 30790-32343
AE016879 BACAN 9335-10841
AL009126 BACSU 9810-11364
AE004092 STRP1 17170-18504
FM211187 STRPN 16806-18218

1. Для объединения всех последовательностей в единый файл воспользовался:
cat *.fasta > all.fasta
2. Провел выравнивание программой muscle:
muscle -in all.fasta -out all_aligned.fasta
3. Далее закинул выравнивание в MEGA и построил дерево с помощью Neighbor-Joining.

Дерево не совпало с правильным. Более того, оно содержит очевидные ошибки. И получается, что результат намного хуже тех, что были получены с белковыми последовательностями. Этому можно найти объяснение. Ведь качество нуклеотидного выравнивания по сравнению с белковым недостаточно высокое. Не существует никаких функциональных групп нуклеотидов (как у аминокислот). Замена одного нуклеотида на любой другой влечёт за собой одинаковый штраф. И видимо, в этом подходе нельзя сказать с уверенностью, является ли определённая нуклеотидная замена важной для разделения соответствующих видов в эволюционном плане. Это ведёт к соответствующим погрешностям.

Одна ветка {STAES} против {BACAN, BACSU, STAA1, GEOKA, LISMO, STRPN, STP1} уже бросается в глаза. Она неверная.

№2 Построение и анализ дерева, содержащего паралоги

1. Для поиска гомологов воспьлозавлся программой blastp:
blastp -query clpx_bacsu.fasta -db prot -out gomolog.fasta -evalue 0.001

2. Получил последовательности благодаря сервису retrieve на сайте UniProt и выровнил их программой muscle

3. Построил дерево, используя программу MEGA методом Neighbor-Joining. Нашлось 30 гомологов.

Паралоги:
  • CLPX_BACSU, CLPY_BACSU, CLPE_BACSU и CLPC_BACSU
  • Q8Y8B1_LISMO и Q8YAB6_LISMO
    Ортологи:
  • CLPX_BACSU и CLPX_STRPN
  • HSLU_LISMO и HSLU_BACAN и тд.