Главная cтраничка сайта

Первый семестр

Второй семестр

Третий семестр

Четвертый семестр

Филогенетические деревья



Занятие 1.


Отобранные бактерии

НазваниеМнемоника
Bacillus anthracisBACAN
Enterococcus faecalisENTFA
Listeria monocytogenesLISMO
Lactococcus lactisLACLM
Pediococcus pentosaceusPEDPA
Staphylococcus epidermidisSTAES
Thermoanaerobacter tengcongensisTHETN

Скобочная формула дерева

 
(THETN,((STAES,(BACAN,LISMO)),(PEDPA,(LACLM,ENTFA))));
  

Изображение дерева


Ветви дерева

Дерево содержит четыре нетривиальные ветви:
1) {BACAN, LISMO} против {THETN, STAES, PEDPA, LACLM, ENTFA};
2) {LACLM, ENTFA} против {THETN, STAES, BACAN, LISMO, PEDPA};
3) {STAES, BACAN, LISMO} против {THETN, PEDPA, LACLM, ENTFA};
4) {LACLM, ENTFA, PEDPA} против {THETN, STAES, BACAN, LISMO};


Занятие 2.


1. Пользуясь таксономическим сервисом NCBI, определили таксономию отобранных бактерий.
Ниже указаны таксоны и соответсвующие ветви, исходя из полученных данных.


2. Из списка функций белков выбираю первую:
Омега-субъединица ДНК-зависимой РНК-полимеразы (RPOZ). Далее получили из Swiss-Prot последовательности белков с данной функцией из отобранных мной бактерий.
3. Получили выравнивание белков программой muscle:

и то же с помощью программы mafft:


5. Проводим реконструкцию дерева программой fprotpars. Программа выдала 2 неукорененных дерева.
Первое дерево
Второе дерево
(STAES, ((LISMO, BACAN), (PEDPA, (THETN, (ENTFA, LACLM)))));(STAES, ((PEDPA, THETN), ((LISMO, BACAN), (ENTFA, LACLM))));
Не совпадающие ветви:
{LACLM, ENTFA, PEDPA} против {THETN, STAES, BACAN, LISMO}
Не совпадающие ветви:
{LACLM, ENTFA, PEDPA} против {THETN, STAES, BACAN, LISMO}
{STAES, BACAN, LISMO} против {THETN, PEDPA, LACLM, ENTFA}

6. Оцениваем эволюционные расстояния между последовательностями программой fprotdist.
Матрица расстояний показана на картинке ниже или же в файле

Ультраметричность:
Если d(A,B) > d (B,C), то d (A,C) = d (A,B);
d(ENTFA,THETN) = 1.293170
d(THETN,LISMO) = 1.123399
d(ENTFA,THETN) > d(THETN,LISMO), значит должно быть: d(ENTFA,LISMO) = d(ENTFA,THETN).
Но d(ENTFA,LISMO) = 0.898628, т.е. 0.898628 должно быть равно 1.293170, что не верно.

Аддитивность:
Если есть четыре последовательности A,B,C,D, то из трёх сумм 1) d(A,B) + d(C,D) 2) d(A,C) + d(B,D) 3) d(A,D) + d(B,C) две равны между собой и больше третьей.
d(BACAN,STAES) = 1.136762
d(ENTFA,LACLM) = 0.994265
d(BACAN,ENTFA) = 0.991946
d(STAES,LACLM) = 1.343545
d(BACAN,LACLM) = 1.196949
d(STAES,ENTFA) = 1.228263

1) d(BACAN,STAES) + d(ENTFA,LACLM) = 1.131027
2) d(BACAN,ENTFA) + d(STAES,LACLM) = 2.335491
3) d(BACAN,LACLM) + d(STAES,ENTFA) = 2.425212
И так можно заметить, что 2-ая и 3-я суммы почти равны, а 1-ая меньше.

7.
Neighbor-Joining
UPGMA
(STAES, ((LISMO, BACAN), (PEDPA, (THETN, (ENTFA, LACLM))))); (STAES, ((PEDPA, THETN), ((LISMO, BACAN), (ENTFA, LACLM))));
Не совпадающие ветви:
{LACLM, ENTFA, PEDPA} против {THETN, STAES, BACAN, LISMO}
Не совпадающие ветви:
{LACLM, ENTFA, PEDPA} против {THETN, STAES, BACAN, LISMO}
{STAES, BACAN, LISMO} против {THETN, PEDPA, LACLM, ENTFA}


Занятие 3.


1. Укоренение в среднюю точку. С помощью программы retree пакета PHYLIP укореняем дерево, построенное при выполнении задания 7 предыдущего занятия методом neighbor-joining, в среднюю точку.
При этом нельзя использовать деревья, построенные методом максимальной экономии, так как их нельзя укоренять.
И не имеет смысла это проделывать с деревом, построенным методом UPGMA, так как он строит уже укоренное дерево.


Укоренение произошло в ветвь между THETN и против всего.

2. Использование внешней группы. Реконструируем программой fprotpars укоренённое дерево отобранных мной бактерий, используя то же семейство белков (Омега-субъединица ДНК-зависимой РНК-полимеразы (RPOZ)), что и в предыдущем задании, а в качестве внешней группы — белок того же семейства из кишечной палочки (Escherichia coli, ECOLI). Добавили к файлу с последовательностями белков фирмикут последовательность белка из кишечной палочки с помощью следующей команды: seqret sw:RPOZ_ecoli stdout >> all.fasta Затем строим выравнивание с помощью команды: muscle -in all.fasta -out all_aligned1.fasta Редактируем имена и результат подаем на вход программе fprotpars. Далее обрабатываем программой retree, указав в качестве действия "select an Outgroup", а в качестве номера — тот, что программа retree присвоит листу ECOLI. Получили изображение:

Правильное дерево:

Правильная ветвь {ENTFA, LACLM} против всего остального; больше правильных ветвей нет.
Укоренение произошло между {ENTFA, LACLM} и всем остальным. Но укоренение произошло в неправильную ветвь.
3. Бутстреп. Проводим бутстреп анализ и получаем картинку:

Заметим, что правильно определена ветвь (LISMO, BACAN), а так же (LACLM, ENTFA). Появилась новая ветвь (THETN, PEDPA) и (STAES, (THETN, PEDPA)). Проанализировав, ветви, не получившие большинства, получили, что в двух случах программа угадала ветвь (STAES, (BACAN, LISMO)), у него поддержка 6.33; и (THETN, (STAES, (BACAN, LISMO))), У нее поддержка 3,83. Ссылка на файл

Занятие 4.


I. 1. Для каждой бактерии из списка приводим дополнительные сведения:
*BACAN:
-AC записи EMBL, описывающей полный геном: AE016879;
-координаты FT, в которой описано 16S рРНК: 9335..10841;
-команда EMBOSS, с помощью которой создавали файл с последовательностью рРНК: seqret AE016879.entret -sask stdout >> all.fasta;
*ENTFA:
-AC записи EMBL, описывающей полный геном: AE016830;
-координаты FT, в которой описано 16S рРНК: 248466..249987;
-команда EMBOSS, с помощью которой создавали файл с последовательностью рРНК: seqret AE016830.entret -sask stdout >> all.fasta;
*LACLM:
-AC записи EMBL, описывающей полный геном: AM406671;
-координаты FT, в которой описано 16S рРНК: 511423..512971;
-команда EMBOSS, с помощью которой создавали файл с последовательностью рРНК: seqret AM406671.entret -sask stdout >> all.fasta;
*LISMO:
-AC записи EMBL, описывающей полный геном: AL591981;
-координаты FT, в которой описано 16S рРНК: complement(99187..100732);
-команда EMBOSS, с помощью которой создавали файл с последовательностью рРНК: seqret AM406671.entret -sask stdout >> all.fasta;
*PEDPA:
-AC записи EMBL, описывающей полный геном: CP000422;
-координаты FT, в которой описано 16S рРНК: 116896..118475;
-команда EMBOSS, с помощью которой создавали файл с последовательностью рРНК: seqret CP000422.entret -sask stdout >> all.fasta;
*STAES:
-AC записи EMBL, описывающей полный геном: AE015929;
-координаты FT, в которой описано 16S рРНК: complement(1598006..1599559);
-команда EMBOSS, с помощью которой создавали файл с последовательностью рРНК: seqret AE015929.entret -sask stdout >> all.fasta;
*THETN:
-AC записи EMBL, описывающей полный геном: AE008691;
-координаты FT, в которой описано 16S рРНК: 53858..55384;
-команда EMBOSS, с помощью которой создавали файл с последовательностью рРНК: seqret AE008691.entret -sask stdout >> all.fasta;

2. Выравнивание было получено командой muscle -in all.fasta -out all_aligned3.fasta;
Файл с выравниванием называется all_aligned3.fasta;
Ссылка на файл с выравниванием: all_aligned3.fasta

3. Дерево по рРНК было получено командой: fneigbor, используя метод UPGMA, при чем заранее строим матрицу расстояний fdnadist;
Выдача программы fneighbor .
Картинка построенного дерева:

Картинка правильно построенного дерева:


Тем же методом по белкам дерево получилось лучше.

II. Построение и анализ дерева, содержащего паралоги.
Итак, сначала найдем гомологи белка CLPX_BACSU, для этого были использованы команды:
formatdb -i proteo.fasta -p T
seqret sw:CLPX_BACSU
blastall -p blastp -d proteo.fasta -i CLPX_BACSU.fasta -o CLPX_BACSU_out.fasta -e 0.001

После этого построим дерево, используя программу fprotpars:

Ортологи - это гомологичные белки, если они из разных организмов или произошли из общего предка путем видообразования.
Примеры ортологов:
-HSLU_STAES и HSLU_ENTFA;
-CLPX_PEDPA и CLPX_ENTFA;
-CLPX_LISMO и CLPX_BACSU;

Паралоги - это гомологичные белки из одного организма.
Примеры паралогов:
-CLPC_BACSU и CLPE_BACSU;
-HSLU_LISMO и CLPX_LISMO;
-HSLU_THETN и CLPX_THETN;

Google

Kodomo


© Сергеева Ирина 2009-2011