Практическая биоинформатика, 2016
По всем вопросам пишите мне (Сергею Спирину) на sas@belozersky.msu.ru .
Презентация к лекции по поиску в БД (скриншоты и пояснения).
Краткое руководство по EMBOSS. Там же есть ссылка на дистрибутив mEMBOSS для Windows. Замечание: приведённые там примеры с извлечением последовательностей непосредственно из банков (например, seqret embl:JX453331) работать не будут, пока вы не настроите себе EMBOSS на доступ к банкам (ask me how :))
Презентация по реконструкции филогении
Заведите протокол (файл в формате какого-нибудь текстового редактора), в который заносите результаты выполнения заданий и свои комментарии.
Важно: протокол должен содержать краткий, но связный и "автономный" (то есть понятный без обращения к тексту задания) текст. После выполнения каждого задания присылайте протокол и файлы, которые требовалось создать, на адрес sas@belozersky.msu.ru .
Задание 5
Реконструируйте двумя или более методами филогению какого-нибудь небольшого (порядка 10 белков) набора родственных белков. Можно взять белки из упражнения 5 задания 2. Другой вариант: взять 10 бактерий из списка на странице https://kodomo.fbb.msu.ru/wiki/2014/4/task1 и для каждой из них – белок с одной и той же функцией. Рекомендуется, чтобы избежать проблем с паралогами, выбрать одну из функций, перечисленных на странице https://kodomo.fbb.msu.ru/wiki/2014/4/task2 . Там же указаны Uniprot-мнемоники, что поможет добыть последовательности: если мнемоника организма BACSU, а мнемоника функции – EFTS, то на сайте http://www.uniprot.org/ можно ввести в окошко поиска "mnemonic:EFTS_BACSU". Для экономии времени можно соединить много таких запросов оператором OR и потом скачать последовательности в виде единого fasta-файла.
Два обязательных метода: Neighbor-joining с bootstrap и Maximum likelihood (для экономии времени лучше без bootstrap) в MEGA. Для импорта в MEGA последовательности должны быть в fasta-формате и в файле, чьё имя кончается на ".fasta". Послледовательности можно выровнять заранее, но можно выровнять встроенными алгоритмами и уже после импорта в MEGA (правда после этого придётся сообразить, как передать полученное выравнивание на вход программам построения деревьев, возможно, это получится не сразу).
В протокол вставьте изображения деревьев, приведите описание различий между ними (если таковые есть) и интерпретацию bootstrap-значений.
***
Как дополнительное задание попробуйте освоить пакет PHYLIP, в первую очередь программы protdist и fitch из него. Ещё одна неплохая программа (уже не из пакета PHYLIP) – FastME (тоже попробуйте освоить). И PHYLIP, и FastME принимают выравнивания в формате PHYLIP. Чтобы приготовить такое выравнивание из обычного (fasta):
- переименуйте последовательности (в Jalview или текстовом редакторе) так, чтобы имя каждой последовательности включало не более 10 символов;
из Jalview: File → Save As и в окошке "Files of type" выбираете PHYLIP. Без Jalview: воспользуйтесь программой seqret пакета EMBOSS:
seqret alignment.fasta phylip::alignment.phy
(в данном случае существенен префикс "phylip::" перед именем файла, а не расширение самого имени!)
Для получения красивой картинки можно импортировать дерево в MEGA (имя файла должно иметь расширение ".tre" или ".nwk"), но можно и освоить программу drawgram из PHYLIP.
Задание 4 (standalone blastp)
Скачайте из Uniprot референсные протеомы представителей Porifera (губки) и Placozoa. Проиндексируйте для BLAST тот и другой протеомы программой makeblastdb. Поищите программой blastp в обоих протеомах гомологи нескольких человеческих белков, например: миоглобина, альфа-тубулина, альфа-актина, сывороточного альбумина, титина, кальмодулина, каких-либо цитохромов и т.д. и т.п. (на ваше усмотрение, но не менее пяти разных белков). Опишите результаты в возможно более наглядной форме (желательны таблицы). Обращайте внимание на общее число находок, число находок с низким e-value (будем считать низким e-value меньше одной тысячной), проценты идентичности и сходства в выравниваниях, процент покрытия человеческого белка выравниваниями. Можно ли на основании анализа полученных данных с той или иной долей уверенности ответить на вопрос: какая группа всё же раньше отделилась от основного ствола Metazoa: губки или Placozoa? (Пояснение: будем антропоцентрически считать, что человек — представитель основного ствола; тогда белки того организма, что раньше ответвился, будут чаще более удалены от человеческих).
Задания 3
- Сделайте множественное выравнивание белков из упражнения 5 заданий 2 (включая тот белок, что выбран в упр. 4) и откройте выравнивание в Jalview.
Способ 1. Запустите программу Muscle: muscle -in input.fasta -out output.fasta (где input.fasta — файл с последовательностями в fasta-формате, а output.fasta — новый файл, в который будет положено выравнивание). Затем запустите Jalview и импортируйте выравнивание (File → Input Alignment → From file).
Способ 2. Запустите Jalview и импортируйте невыровненные последовательности. Затем вызовите по сети программу выравнивания (Web Service → Alignment → Muscle with Defaults).
В меню Colour выберите наиболее информативную, по вашему мнению, раскраску (а основная информация, которую мы получаем из выравнивания — это возможности замены остатков интересующего нас белка в его гомологах; раскраска должна облегчать восприятие этой информации). Опишите выравнивание: его длину, сколько примерно в нём консервативных колонок, по всей ли длине гомологичны белки, какие участки наиболее консервативны, что ещё удалось понять о данных белках благодаря анализу выравнивания. Сохраните "Jalview project" (File → Save project, получается файл с расширением jvp) и пришлите вместе с протоколом.
Создайте набор локальных выравниваний одного из белков с другими: water protein.fasta set.fasta set.water -auto (где protein.fasta — файл с одним белком, set.fasta — файл с многими белками, set.water — имя выходного файла). Выпишите в протокол характеристики выравниваний: вес выравнивания (Score), длину, проценты идентичности и сходства, число гэпов. (Указание: grep — очень полезная в разных ситуациях программа). Какой белок из набора самый родственный исходному и какой — наименее родственный? Найдите на множественном выравнивании участок исходного белка, попавший в локальное выравнивание с самым далёким из гомологов вашего набора. Совпадает ли выравнивание на этом участке с полученным программой water? (Выравнивания совпадают, если сопоставления букв разных последовательностей, задаваемые выравниванием, одинаковы).
Выберите какую-нибудь пару предположительно гомологичных, но не слишком близких белков. Можно взять какую-нибудь пару из предыдущих упражнений, а можно, например, белки с одинаковыми названиями, один из дрожжей, другой из человека. Создайте 100 случайных перемешиваний последовательности одного из этих белков программой shuffleseq пакета EMBOSS. Сделайте: а) локальные (программой water) б) глобальные (программой needle) выравнивания последовательности другого белка со случайно перемешанными. Сравните эти выравнивания с выравниваниями (соответственно локальным и глобальным) настоящих последовательностей: во-первых, посмотрите на совокупность весов случайных выравниваний (опять-таки grep в помощь) и насколько отличается от них вес настоящего выравнивания, во-вторых, посмотрите на сами выравнивания и попытайтесь сформулировать, как по внешнему виду распознать выравнивание неродственных последовательностей. Лучше повторить это упражнение два-три раза для разных пар белков (в том числе для какой-нибудь пары достаточно далёких, чья гомологичность сомнительна). По тому, насколько отличается выравнивание настоящих последовательностей от выравниваний случайно перемешанных, можно судить о достоверности вывода о гомологичности белков.
Задания 2
- С помощью поиска на сайте ENA найдите в разделе STD банка EMBL запись, описывающую геном какого-либо вируса. Выбор вируса –- за вами. Лучше выбирайте вирусы с небольшим геномом -– менее 15 000 п.н.
- Сохраните в рабочую директорию выбранный геном в двух форматах –- EMBL (полную запись) и fasta. Названия файлов — AAAAAAA.embl, AAAAAAA.fasta, где AAAAAAA — код доступа записи EMBL с геномом вируса, например, JX453331.
- Кратко опишите в протоколе геном вируса (название вируса, таксономия, число пар нуклеотидов, число описанных в записи генов и закодированных белков).
- Скопируйте из Uniprot файлы с полной записью и с последовательностью в fasta-формате одного из белков вируса. Опишите в протоколе всю понятную вам информацию из записи Uniprot. Названия файлов — AAAAA.uniprot, AAAAA.fasta ; AAAAA – код доступа записи Uniprot. Выбор белка – за вами. Выбирайте белок, про который хоть что-то известно (есть название, отличное от “unknown protein”).
- Найдите и сохраните в файле в формате fasta последовательности из Uniprot 10–15 белков, имеющих такое же название, что и выбранный вами белок (см. 4.) и принадлежащий вирусам из того же семейства, что и выбранный вами вирус (см. 1.). Уровень родства и название белка можно, при необходимости, разумно варьировать.
Имя файла — TTTTTTT_prot.fasta, где TTTTTT — краткое название семейства.
Указания и подсказки к заданиям 2
Работайте на сервере http://www.ebi.ac.uk/ena/. Перейдите по ссылке “Advanced search” в разделе “Text search”. Выберите “Sequence”: возникнет форма поиска из многих окошек. Вам нужны только три окошка: в “Taxon name”, впишите либо “Viruses”, либо (лучше) латинское название какого-либо семейства вирусов; поставьте галочку против “Include subordinate taxa”; в окошке Description напишите “* genome *” (именно так, со звёздочками спереди и сзади!), в окошке “Data class” (в самом низу) выберите “STD”, после чего найдите кнопку Search и нажмите её. Пройдите по одной из ссылок “View all results” (в этом месте стоит не торопясь прочитать, что кроется за каждой из ссылок), и выберите запись, описывающую геном приглянувшегося вам вируса (внимательно, не все записи описывают полные геномы или хотя бы сегменты геномов! ).
- Пройдя по гиперссылке слева от описания, найдите справа раздел Download и сохраните два файла: полную запись в EMBL-формате (“Text”) и последовательность в fasta-формате (“Fasta”). Следите за расширениями имён файлов, они должны быть не txt, а embl и fasta. Если файл сохранился с неверным расширением, нужно переименовать его.
- Гены и белки описаны в поле FT полной записи.
Найдите в описании белка в поле FT записи EMBL номер доступа (AC) банка Uniprot: он состоит из шести символов, первый из которых — заглавная буква. Если AC записи Uniprot, к примеру, P00174, то полная запись находится по адресу http://www.uniprot.org/uniprot/P00174.txt, а в fasta-формате – по адресу http://www.uniprot.org/uniprot/P00174.fasta .
Откройте сайт Uniprot http://www.uniprot.org/ , пройдите по ссылке Advanced. В верхнем левом окошке выберите “Taxonomy [OC]”, в верхнее правое впишите название семейства, в нижнем левом выберите “Protein name [DE]”, против него впишите слово (слова) из описания белка. Получив список находок, поставьте галочки против 10–15 из них и нажмите Download, далее читайте и поступайте по смыслу.