Четвертый семестр

Занятие 4


1. Построение дерева по нуклеотидным последовательностям


В задании требовалось построить филогенетическое дерево тех же бактерий, что в предыдущих заданиях, используя последовательности РНК малой субъединицы рибосомы (16S rRNA).

В таблице для каждой бактерии представлены AC записи EMBL, в которой нашлась последовательность 16S rRNA, координаты этой РНК в этой записи, на прямой или комплементарной последовательности оказалась последовательность этой рРНК.

Название Мнемоника AC записи EMBL Координаты РНК Цепь
Bacillus anthracis BACAN AE015927 8715..10233 Обратная
Clostridium tetani CLOTE AE016879 9335..10841 Прямая
Finegoldia magna FINM2 AP008971 611796..613319 Прямая
Geobacillus kaustophilus GEOKA BA000043 10421..11973 Прямая
Lactobacillus acidophilus LACAC CP000033 59255..60826 Прямая
Lactococcus lactis LACLM AM406671 511423..512971 Прямая
Staphylococcus aureus STAA1 AP009324 531922..533476 Прямая
Streptococcus pyogenes STRP1 AE004092 17170..18504 Прямая

Последовательности были выровнены программой Muscle (with Defaults) в JalView. Затем выравнивание было импортировано в программу MEGA, с помощью которой было реконструировано филогенетическое дерево методом Neighbor Joining. Полученное и правильное деревья представлены на рисунках:

Верное дерево Neigbour joining tree of 16S rRNA

Реконструированное дерево очень похоже на правильное. Единственное отличие - в нем есть ветвь {BACAN, STAA1} vs {GEOKA, STRP1, LACLM, LACAC, FINM2, CLOTE} вместо {BACAN, GEOKA} vs {STAA1, STRP1, LACLM, LACAC, FINM2, CLOTE}. Теоретически качество дерева, построенного по нуклеотидным последовательностям, должно быть хуже, чем построенного по белкам, потому что одну аминокислоту можно закодировать разными кодонами, и в белковых выравниваниях не будут учитываться молчащие мутации в нуклеотидах. Думаю, белок, который я выбрала в предыдущем практикуме - фактор элонгации трансляции G (EFG) - был менее удачным.

2. Построение и анализ дерева, содержащего паралоги


В задании требовалось найти в своих бактериях достоверные гомологи белка CLPX_BACSU, построить дерево этих гомологов. Считая дерево реконструированным верно, указать несколько пар ортологов и несколько пар паралогов. Привести примеры отражённых на дереве эволюционных событий двух типов: 1) дупликация гена; 2) разделение путей эволюции белков в результате видообразования.

Два гомологичных белка будем называть ортологами, если они а) из разных организмов; б) разделение их общего предка на линии, ведущие к ним, произошло в результате видообразования.

Два гомологичных белка из одного организма будем называть паралогами.

Чтобы найти гомологов в заданных организмах, воспользовались файлом proteo.fasta, где лежат записи банка UNIPROT, относящиеся к бактериям, перечисленным в таблице к заданию 1. Провели поиск гомологов программой blastp(с порогом на E-value 0,001) и отобрали по мнемонике видов только те находки, которые относятся к отобранным ранее бактериям (файл с выравниваниями blastp.out).

Использовались следующие команды:


makeblastdb -in proteo.fasta -dbtype prot -out prot
blastp -query clpx_bacsu.fasta -db prot -out blastp.out -evalue 0.001 -outfmt 6

Чтобы отобрать белки нужных организмов можно воспользоваться утилитой awk:


 for id in bacsu clote bacan geoka lacac laclm staa1 strp1;
 do awk '{ print $2 }' blastp.out | grep -i $id >> ids.txt; done

Список белков в файле ids.txt. Список последовательностей приведен в файле homologs_seqs.fasta

С помощью программы muscle выровняли последовательности. Команда:


muscle -in homologs_seqs.fasta -out alignment.fasta

Построили дерево в программе MEGA методом Neighbor Joining:

pic1

Филогенетическое дерево гомологов CLPX_BACSU

Среди найденных гомологичных белков есть ортологи:

CLPX_BACSU и CLPX_BACAN; HSLU_LACAC ,HSLU_STAA1, HSLU_GEOKA, HSLU_BACAN

И паралоги:

Q891B9_CLOTE и Q899H3_CLOTE, Q5FM98_LACAC и Q5FHW6_LACAC

Примеры: