Указания к практикуму 2
Как построить выравнивание цитохромов B из выбранных животных
Первый способ: всё на kodomo
Зайдите на kodomo, заведите директорию term4 и в ней поддиректорию practice2. В этой директории создайте (например, пользуясь nano) текстовый файл cyb.list из строк вида:
sw:cyb_human sw:cyb_mouse sw:cyb_horse ...
Должны быть представлены идентификаторы цитохромов B из выбранных вами животных. Теперь можно воспользоваться тем, что на kodomo к EMBOSS подключён банк Swiss-Prot под именем sw. Команда:
seqret @cyb.list cyb.fasta
создаст файл с последовательностями этих белков в формате fasta. Выровнять можно программой muscle:
muscle -align cyb.fasta -output cyb-alignment.fasta
или другими программами выравнивания, установленными на kodomo: mafft, prank, edialign.
Второй способ: на сайте Uniprot
Найдите свои белки в Uniprot, положите в корзину (кнопочка "Add"). Зайдите в корзину, поставьте галочки против названий белков, в меню Tools выберите Align, далее по смыслу. Когда появится надпись "Completed", щёлкните по ней, найдите кнопку Download, выберите формат FASTA (с другими будут проблемы), сохраните файл и перебросьте его в рабочую директорию на kodomo.
Третий способ: через Jalview
Запустите Jalview. В меню "File" выберите "Fetch Sequences". В окошке Select database выберите Uniprot, появится окошко запроса к Uniprot. Выберите вкладку Retrieve ID, в поле внесите идентификаторы белков через точку с запятой (например, cyb_human;cyb_horse;cyb_mouse); нажмите OK. В появившемся окошке с последовательностями в меню Web service выберите Alignment и любую программу. Когда появится окошко с выравниванием, в нём File→Save. Файл с выравниванием перебросьте в рабочую директорию на kodomo.
Во всех трёх вариантах: получив выравнивание, стоит на него посмотреть (хотя бы через less). Если в нём много гэпов, значит что-то не так (либо вы случайно присоединили не тот белок, либо один из выбранных белков — фрагмент).
Как реконструировать дерево программой FastME
Прежде всего надо перевести выравнивание в единственный формат, который воспринимается программой FastME, а именно т.н. "phylip-relaxed". К сожалению, этот формат не поддерживается пакетом EMBOSS, но зато поддерживается библиотекой BioPython. Посмотрите в прошлогодней презентации (слайд 57), как написать программу, берущую на вход выравнивание в формате fasta и выдающую выравнивание в другом формате (в примере на слайде это формат clustal, вам нужен phylip-relaxed). Запишите выравнивание в формате phylip-relaxed в файл cyb.phy.
Теперь собственно реконструкция. Для начала стоит посмотреть help программы: fastme -h на kodomo или "Command line options" в User guide на сайте разработчиков (легко гуглится по названию программы). Вам нужны параметры -i, -p и -o (обратите внимание, что имена файлов после -i и -o пишутся через пробел, а обозначение модели после -p вплотную). Выберите в качестве модели сначала p-distance, затем MtREV (выходные файлы надо назвать по-разному!).
Как реконструировать дерево программой IQ-Tree
Смотрите help (iqtree -h), но поскольку у данной программы он очень длинный, то подскажу. Программа с параметрами по умолчанию запускается так:
iqtree -s cyb.phy
Программа создаст несколько файлов, вам нужен один: cyb.phy.treefile
Работа в iTOL
Загрузка формулы дерева
Найдите сайт iTOL и на нём страницу загрузки дерева. Выберите файл и нажмите кнопку Upload.
Укоренение в нужную ветвь
Внимательно рассмотрите дерево, оно сначала неукоренённое (изображение укоренено в случайное место!). Найдите ветвь, соответствующую правильному укоренению (если такой нет, то максимально близкую). Щёлкните по этой ветви, откроется меню. В меню: Tree structure → Re-root the tree here
Сохранение изображения
Вкладка Export, там выбираете Format: PNG, Export area: Full image, пишете имя файла (например, cyb_fastme_p_tree.png), нажимаете Export и выбираете папку.
Как сравнивать деревья
Укоренённые деревья лучше всего сравнивать по кладам, точнее по составу листьев в каждой кладе. Для каждой клады дерева, нарисованного по таксономии, посмотрите, есть ли клада того же состава в дереве, реконструированном по белкам. Если нет, то отметьте её как ошибочно не реконструированную. Вместо каждой ошибочно отсутствующей клады должна обязательно появиться ошибочно присутствующая, то есть в чём-то противоречащая таксономии, найдите её тоже.
Бывают ошибки реконструкции, которые проще описать в других терминах, например: "вид A должен составлять одну кладу с видами B, C и D, вместо этого в реконструированном дереве он объединён с видом E". В любом случае из вашего описания ошибок должно быть однозначно понятно, в чём эти ошибки состоят.