Учебная страница курса биоинформатики,
год поступления 2017
Занятие 3
Задания 1–3 вы готовите к коллоквиуму 1 марта, на котором показываете и объясняете результаты. Отчёт по заданию 4 выкладывается на сайт, со ссылкой со страницы семестра.
1. Укоренение с использованием внешней группы
MEGA автоматически укореняет деревья в среднюю точку, если это возможно. Деревья, построенные методом максимальной экономии ("Maximum parsimony") невозможно укоренить в среднюю точку (почему?), но можно укоренить с помощью внешней группы. Реконструируйте методом максимальной экономии укоренённое дерево отобранных вами бактерий, используя в качестве внешней группы белок того же семейства из сенной палочки (Bacillus subtilis, мнемоника BACSU в Uniprot).
Подсказка: необходимо добавить к файлу с невыровненными последовательностями белков протеобактерий последовательность белка из сенной палочки, после чего выровнять их вместе.
Затем надо отредактировать имена (оставив только мнемонику видов) и результат импортировать в программу MEGA. После реконструкции дерева нужно в меню Subtree выбрать Root и указать в качестве корня ветвь, ведущую к BACSU. Наконец, чтобы получить изображение укоренённого дерева без ECOLI, нужно воспользовавться кнопкой "Show Subtree Separately" (изображение голубой лупы на фоне дерева на левой панели окна MEGA),
Сохраните выравнивание с отредактированными именами. Будьте готовы проделать описанные действия в MEGA и прокомментировать результат на коллоквиуме.
2. Бутстрэп
Проведите бутстрэп-анализ филогении своих белков, используя один из методов, доступных из программы MEGA. Для этого в окошке, которое открывается после вызова программы, в меню "Test of Phylogeny" выберите "Bootstrap method". Укажите число реплик, равное 100.
Отличаются ли деревья, названные "Original tree" и "Bootstrap consensus tree"? Если да, то какое из них ближе к правильному (близость определяется по числу общих ветвей). Верно ли, что неправильные ветви (если они присутствуют в полученной реконструкции) имеют меньшую поддержку, чем правильные? Будьте готовы ответить на вопрос о смысле чисел на ветвях.
3. Построение дерева по нуклеотидным последовательностям
Постройте филогенетическое дерево тех же бактерий, что в предыдущих заданиях, используя последовательности РНК малой субъединицы рибосомы (16S rRNA).
Этапы работы:
Добудьте последовательности 16S рибосомальной РНК каждой из ваших бактерий из базы полных геномов NCBI (ftp://ftp.ncbi.nlm.nih.gov/genomes/archive/old_refseq/Bacteria/). Можно брать геном любого штамма нужного вида (если данного вида вообще нет, можно брать другой вид того же рода, но лучше разобраться, какие синонимы есть у нужного видового названия – наверняка этот вид есть, просто назван по-другому). Разберитесь самостоятельно, в каком из файлов находится последовательность 16S РНК.
- Положите все последовательности в единый файл в fasta-формате, отредактируйте их названия, чтобы они отвечали организмам, и выровняйте.
- Файл с выравниванием импортируйте в программу MEGA (указав Analyze при импорте) и выберите один из методов "верхней тройки" в меню "Phylogeny".
На коллоквиуме 1 марта вы должны будете:
- загрузить в MEGA выравнивание 16S РНК, без долгих поисков (оно должно лежать в понятном месте в файле с понятным названием);
- реконструировать дерево методом, указанным преподавателем;
- сравнить качество реконструкции по 16S РНК с качеством реконструкции по белку.
4. Построение и анализ дерева, содержащего паралоги
Отчёт по этому заданию выкладывается на сайт. Срок без потери баллов – утро 1 марта 2019. Срок со штрафом 0,5 балла – 7 марта 2019.
Найдите в своих бактериях достоверные гомологи белка CLPX_ECOLI. Реконструируйте дерево этих гомологов (в отчёте обязательно укажите программу и метод реконструкции). Считая дерево реконструированным верно, укажите несколько пар паралогов и две-три группы попарно ортологичных белков. Приведите примеры отражённых на дереве эволюционных событий двух типов: 1) дупликация гена; 2) разделение путей эволюции белков в результате видообразования (не менее двух примеров каждого события).
Указание. Два гомологичных белка будем называть ортологами, если они: а) из разных организмов; б) разделение их общего предка на линии, ведущие к ним, произошло в результате видообразования. Два гомологичных белка из одного организма будем называть паралогами.
Чтобы найти гомологов в заданных организмах, воспользуйтесь файлами, лежащими на kodomo в директории /P/y17/term4/Proteomes (они содержат скачанные из Uniprot полные протеомы бактерий, перечисленных в таблице первого практикума). Необходимо провести поиск программой blastp гомологов (с разумным порогом на E-value, скажем, 0,001) по протеомам отобранных вами бактерий. Совет: чтобы не запускать BLAST много раз, разумно создать объединённый файл с протеомами нужных бактерий. Для создания такого файла можно воспользоваться командой вида:
cat file1 >> file2
которая добавляет содержимое файла file1 в конец файла file2.
Другой способ — несколько раз воспользоваться BLAST'ом на сайте NCBI, устанавливая фильтр по организму, а в качестве банка — "nr" (поскольку Swiss-Prot может содержать не все гомологи). Если пользоваться этим способом, то придётся, чтобы не запутаться в том, какие белки из какого организма, придумать систему названий белков и переименовывать их сразу после скачивания.