Учебная страница курса биоинформатики,
год поступления 2021
Практикум 2. Реконструкция филогении
Отчёт по первому заданию присоединяйте к отчёту по предыдущему практикуму, он должен быть готов к 23 февраля.
Письменный отчёт по второму заданию не требуется, вы будете "защищать" результаты на коллоквиуме по первому блоку.
Заведите в правильном месте рабочую директорию. Все файлы, относящиеся к заданию, храните там, они понадобятся вам при "защите".
Задание 1
Пользуясь таксономическим сервисом NCBI: https://www.ncbi.nlm.nih.gov/taxonomy/, определите, к каким таксонам относятся отобранные вами бактерии. Какие нетривиальные ветви на дереве отобранных бактерий выделяют какие-нибудь из таксонов? (укажите в отчёте ветви и таксоны).
Задание 2
Из списка функций белков выберите одну: по белкам соответствующего семейства вы будете реконструировать филогенетическое дерево.
Получите из Swiss-Prot последовательности белков с данной функцией из отобранных вами бактерий в виде файла в формате fasta.
Подсказка
Первый вариант. Запустите JalView. В меню File выберите Fetch sequences. Щёлкните по "Select Database" и выберите Uniprot. Запишите через точку с запятой выражения вида xxxx_yyyyy, где xxxx – выбранная вами мнемоника функции, а yyyyy – мнемоники отобранных вами организмов. После нажатия OK должно появиться окно с последовательностями. Сохраните последовательности в виде одного fasta-файла
Второй вариант.
1) Составьте список идентификаторов белков по схеме как выше (например, CRP_ECOLI, CRP_SALTY, CRP_SHIFL).
2) Вставьте список в форму загрузки из Uniprot и найдите белки. Дальше их можно скачать кнопкой "Download" и сохранить.
Третий вариант.
1) Составьте список идентификаторов белков по той же схеме, запишите их в текстовый файл, по одному в строку, и перед каждым идентификатором вставьте sw: (это обозначение банка Swiss-Prot в окружении EMBOSS на kodomo). Содержимое файла должно выглядеть примерно так:
sw:CRP_ECOLI sw:CRP_SALTY ...
Файл должен быть записан в кодировке Unix (конец строки — один байт)
2) Если файл называется mylist.txt и лежит на kodomo в текущей директории, то выполнение команды
seqret @mylist.txt myproteins.fasta
"вытащит" из Swiss-Prot последовательности соответствующие белки и поместит их в формате fasta в файл myproteins.fasta (знак "@" указывает программам EMBOSS, что в файле надо искать не сами последовательности, а список их USA).
- Отредактируйте названия последовательностей в файле: оставьте от названия каждого белка только мнемонику вида, остальное уберите (так легче будет сравнивать деревья).
- Проведите реконструкцию филогении тремя алгоритмами.
Зайдите на сайт NGPhylogeny.fr. Там надо выбрать вариант "A la Carte", сформировать Workflow, затем загрузить невыровненные последовательности в fasta-формате (то есть выравнивание заранее делать не надо, сервис сам это делает) и нажать "Submit".
Чтобы получить результаты разных программ, надо всё повторить три раза с разными Workflow. Workflow рекомендую такие: MAFFT → FastME, MAFFT → TNT, MAFFT → PhyML. FastME — это минимальная эволюция, TNT — максимальная экономия, PhyML — максимальное правдоподобие.
Стадии "Alignment Curation" и "Tree Rendering" лучше опускать (просто ничего не отмечать в соответствующих разделах).
Дождавшись результата (это в среднем минут пять) необходимо скачать файл Output tree (там есть кнопочка Download) и открыть его же в iTOL (сервис предлагает это сделать, кнопочка справа в строке "Output tree"). Из iTOL надо: (а) сохранить исходную картинку; (б) если дерево с длинами ветвей, то нажать Advanced → Midpoint root и сохранить картинку дерева, переукоренённого в среднюю точку.
Таким образом, у вас должно получиться три серии по два-три файла, в каждой дерево в Newick-формате и одна или две картинки: исходное дерево и (для деревьев с длинами ветвей) переукоренённое. Все файлы вы должны будете без задержек предъявить на коллоквиуме, то есть они должны быть организованы (названия, папки и т.п.) так, чтобы вы легко находили каждый и сразу понимали, где какой. Ну и на все требуемые вопросы по этим деревьям нужно быть готовыми ответить, разумеется. Прежде всего это вопрос о ветвях в реконструированных деревьях, которые соответствуют/не соответствуют ветвям дерева бактерий.
На случай, если NGPhylogeny.fr не будет работать (всякое бывает), есть более старая версия: https://www.phylogeny.fr/ , там всё более или менее аналогично, тоже нужно выбирать "A la Carte", отключать "Alignment curation" и запустить три раза, тремя программами: PhyML, TNT и одним из дистанционных методов. Оттуда тоже нужно будет скачать формулу дерева в Newick формате (найдите эту малозаметную ссылку) и одну или две картинки.