Kodomo

Пользователь

Учебная страница курса биоинформатики,
год поступления 2021

Практикум 2. Реконструкция филогении

Отчёт по первому заданию присоединяйте к отчёту по предыдущему практикуму, он должен быть готов к 23 февраля.

Письменный отчёт по второму заданию не требуется, вы будете "защищать" результаты на коллоквиуме по первому блоку.

Заведите в правильном месте рабочую директорию. Все файлы, относящиеся к заданию, храните там, они понадобятся вам при "защите".

 

Задание 1

Пользуясь таксономическим сервисом NCBI: https://www.ncbi.nlm.nih.gov/taxonomy/, определите, к каким таксонам относятся отобранные вами бактерии. Какие нетривиальные ветви на дереве отобранных бактерий выделяют какие-нибудь из таксонов? (укажите в отчёте ветви и таксоны).

Задание 2

  1. Из списка функций белков выберите одну: по белкам соответствующего семейства вы будете реконструировать филогенетическое дерево.

Получите из Swiss-Prot последовательности белков с данной функцией из отобранных вами бактерий в виде файла в формате fasta.

Подсказка
Первый вариант. Запустите JalView. В меню File выберите Fetch sequences. Щёлкните по "Select Database" и выберите Uniprot. Запишите через точку с запятой выражения вида xxxx_yyyyy, где xxxx – выбранная вами мнемоника функции, а yyyyy – мнемоники отобранных вами организмов. После нажатия OK должно появиться окно с последовательностями. Сохраните последовательности в виде одного fasta-файла
 
Второй вариант.
1) Составьте список идентификаторов белков по схеме как выше (например, CRP_ECOLI, CRP_SALTY, CRP_SHIFL).
2) Вставьте список в форму загрузки из Uniprot и найдите белки. Дальше их можно скачать кнопкой "Download" и сохранить.
 
Третий вариант.
1) Составьте список идентификаторов белков по той же схеме, запишите их в текстовый файл, по одному в строку, и перед каждым идентификатором вставьте sw: (это обозначение банка Swiss-Prot в окружении EMBOSS на kodomo). Содержимое файла должно выглядеть примерно так:

sw:CRP_ECOLI
sw:CRP_SALTY
...

Файл должен быть записан в кодировке Unix (конец строки — один байт)
2) Если файл называется mylist.txt и лежит на kodomo в текущей директории, то выполнение команды
seqret @mylist.txt myproteins.fasta
"вытащит" из Swiss-Prot последовательности соответствующие белки и поместит их в формате fasta в файл myproteins.fasta (знак "@" указывает программам EMBOSS, что в файле надо искать не сами последовательности, а список их USA).

  1. Отредактируйте названия последовательностей в файле: оставьте от названия каждого белка только мнемонику вида, остальное уберите (так легче будет сравнивать деревья).
  2. Проведите реконструкцию филогении тремя алгоритмами.

Зайдите на сайт NGPhylogeny.fr. Там надо выбрать вариант "A la Carte", сформировать Workflow, затем загрузить невыровненные последовательности в fasta-формате (то есть выравнивание заранее делать не надо, сервис сам это делает) и нажать "Submit".

Чтобы получить результаты разных программ, надо всё повторить три раза с разными Workflow. Workflow рекомендую такие: MAFFT → FastME, MAFFT → TNT, MAFFT → PhyML. FastME — это минимальная эволюция, TNT — максимальная экономия, PhyML — максимальное правдоподобие.

Стадии "Alignment Curation" и "Tree Rendering" лучше опускать (просто ничего не отмечать в соответствующих разделах).

Дождавшись результата (это в среднем минут пять) необходимо скачать файл Output tree (там есть кнопочка Download) и открыть его же в iTOL (сервис предлагает это сделать, кнопочка справа в строке "Output tree"). Из iTOL надо: (а) сохранить исходную картинку; (б) если дерево с длинами ветвей, то нажать Advanced → Midpoint root и сохранить картинку дерева, переукоренённого в среднюю точку.

Таким образом, у вас должно получиться три серии по два-три файла, в каждой дерево в Newick-формате и одна или две картинки: исходное дерево и (для деревьев с длинами ветвей) переукоренённое. Все файлы вы должны будете без задержек предъявить на коллоквиуме, то есть они должны быть организованы (названия, папки и т.п.) так, чтобы вы легко находили каждый и сразу понимали, где какой. Ну и на все требуемые вопросы по этим деревьям нужно быть готовыми ответить, разумеется. Прежде всего это вопрос о ветвях в реконструированных деревьях, которые соответствуют/не соответствуют ветвям дерева бактерий.


На случай, если NGPhylogeny.fr не будет работать (всякое бывает), есть более старая версия: https://www.phylogeny.fr/ , там всё более или менее аналогично, тоже нужно выбирать "A la Carte", отключать "Alignment curation" и запустить три раза, тремя программами: PhyML, TNT и одним из дистанционных методов. Оттуда тоже нужно будет скачать формулу дерева в Newick формате (найдите эту малозаметную ссылку) и одну или две картинки.

2021/4/task2 (последним исправлял пользователь sas 2023-03-09 08:12:52)