Задание 1. Построение дерева по нуклеотидным последовательностям. Поискав ссылки на запись EMBL, описывающую полный геном каждой из бактерий, в соответствующих записях Swiss-Prot, описывающих белок EFG, получили нуклеотидные последовательности 16S рРНК.
При этом проблемы возникли с STRPN. В полном геноме штамма, на который ссылается запись Swiss-Prot EFG_STRPN, рРНК неразмечены. Пришлось использовать BLASTN, хотя потом нашелся штамм Streptococcus pneumoniae с размеченными рРНК. Последовательность из него и использовалась для выравнивания.
На основании выравнивания постороено с помощью программы fdnaml неукорененное дерево:
Верное дерево:
Как видно из изображений деревьев, при правильном укоренении верхнего они идентичны: совпали все ветви. Используя матрицу расстояний (fdnadist) с помощью программы fkitsch (метод Фитча – Марголиаша ) было построено другое дерево, которое, однако, хуже предыдущего:
Задание 2. Построение и анализ дерева, содержащего паралоги. Найдем в выбранных бактериях достоверные гомологи белка CLPX_BACSU. Чтобы найти гомологов в заданных организмах, воспользуемся файлом proteo.fasta, где лежат записи банка UniProt. Создаем индексные файлы для поиска по файлу proteo.fasta:
Необходимо провести поиск программой BLASTP гомологов (с порогом на E-value=0,0001) и отобрать по мнемонике видов только те находки, которые относятся к отобранным бактериям.
Результат поиска blastp.out
Два гомологичных белка будем называть ортологами, если они: Два гомологичных белка из одного организма будем называть паралогами. Можно определить, считая, что дерево реконструировано верно: |