Учебная страница курса биоинформатики,
год поступления 2015
Занятие 4
Отчёт по заданиям должен быть выложен на сайт, со ссылкой со страницы семестра. Срок без потерь баллов – утро 17 марта 2017. Срок со штрафом 0,5 балла – 24 марта 2017. Несдавшие ко второму сроку смогут сдать эти задания только на зачёте, штраф 2 балла.
Деревья в обоих заданиях следует строить программой MEGA, любым из методов "верхней тройки": Neighbor-Joining, Minimum evolution или Maximum likelihood. Указывайте в отчётах, какой метод был использован.
1. Построение дерева по нуклеотидным последовательностям
Постройте филогенетическое дерево тех же бактерий, что в предыдущих заданиях, используя последовательности РНК малой субъединицы рибосомы (16S rRNA).
В отчёте приведите:
- краткое описание процесса получения последовательностей;
- какой программой были выровнены последовательности;
- каким методом реконcтруировалось дерево;
- изображение дерева (листья должны быть помечены мнемониками видов);
- анализ дерева: совпадает ли с правильным? Если нет, сколько ветвей реконструированы неверно? Что можно сказать о качестве реконструкции по сравнению с деревьями, построенными по белкам?
Этапы работы:
Добудьте последовательности 16S рибосомальной РНК каждой из бактерий из базы полных геномов NCBI (ftp://ftp.ncbi.nlm.nih.gov/genomes/archive/old_refseq/Bacteria/). Можно брать геном любого штамма нужного вида (если данного вида вообще нет, можно брать другой вид того же рода, но лучше разобраться, какие синонимы есть у нужного видового названия – наверняка этот вид есть, просто назван по-другому). Разберитесь самостоятельно, в каком из файлов находится последовательность 16S РНК.
- Положите все последовательности в единый файл в fasta-формате, отредактируйте их названия, чтобы они отвечали организмам, и выровняйте.
- Файл с выравниванием импортируйте в программу MEGA (указав Analyze при импорте) и выберите один из методов "верхней тройки" в меню "Phylogeny".
2. Построение и анализ дерева, содержащего паралоги
Найдите в своих бактериях достоверные гомологи белка CLPX_BACSU. Постройте дерево этих гомологов. Считая дерево реконструированным верно, укажите несколько пар паралогов и две-три группы попарно ортологичных белков. Приведите примеры отражённых на дереве эволюционных событий двух типов: 1) дупликация гена; 2) разделение путей эволюции белков в результате видообразования (не менее двух примеров каждого события).
Указание. Два гомологичных белка будем называть ортологами, если они: а) из разных организмов; б) разделение их общего предка на линии, ведущие к ним, произошло в результате видообразования. Два гомологичных белка из одного организма будем называть паралогами.
Чтобы найти гомологов в заданных организмах, воспользуйтесь файлами, лежащими в директории P:\y15\term4\Proteomes (они содержат скачанные из Uniprot полные протеомы бактерий, перечисленных в таблице первого практикума). Необходимо провести поиск программой blastp гомологов (с разумным порогом на E-value, скажем, 0,001) по протеомам отобранных вами бактерий. Совет: чтобы не запускать BLAST много раз, разумно создать объединённый файл с протеомами нужных бактерий. Для создания такого файла можно воспользоваться командой вида:
cat file1 >> file2
которая добавляет содержимое файла file1 в конец файла file2.
Другой способ — несколько раз воспользоваться BLAST'ом на сайте NCBI, устанавливая фильтр по организму, а в качестве банка — "nr" (поскольку Swiss-Prot может содержать не все гомологи). Если пользоваться этим способом, то придётся, чтобы не запутаться в том, какие белки из какого организма, придумать систему названий белков и переименовывать их сразу после скачивания.