Kodomo

User

Практическая биоинформатика, 2016

По всем вопросам пишите мне (Сергею Спирину) на sas@belozersky.msu.ru .

Программа

Условия зачёта

Презентация к первой лекции

Презентация к лекции по поиску в БД (скриншоты и пояснения).

Краткое руководство по EMBOSS. Там же есть ссылка на дистрибутив mEMBOSS для Windows. Замечание: приведённые там примеры с извлечением последовательностей непосредственно из банков (например, seqret embl:JX453331) работать не будут, пока вы не настроите себе EMBOSS на доступ к банкам (ask me how :))

Презентация по BLAST

Презентация по реконструкции филогении

Презентации по MEME и Pfam.


Заведите протокол (файл в формате какого-нибудь текстового редактора), в который заносите результаты выполнения заданий и свои комментарии.

Важно: протокол должен содержать краткий, но связный и "автономный" (то есть понятный без обращения к тексту задания) текст. После выполнения каждого задания присылайте протокол и файлы, которые требовалось создать, на адрес sas@belozersky.msu.ru .

Задание 5

Реконструируйте двумя или более методами филогению какого-нибудь небольшого (порядка 10 белков) набора родственных белков. Можно взять белки из упражнения 5 задания 2. Другой вариант: взять 10 бактерий из списка на странице https://kodomo.fbb.msu.ru/wiki/2014/4/task1 и для каждой из них – белок с одной и той же функцией. Рекомендуется, чтобы избежать проблем с паралогами, выбрать одну из функций, перечисленных на странице https://kodomo.fbb.msu.ru/wiki/2014/4/task2 . Там же указаны Uniprot-мнемоники, что поможет добыть последовательности: если мнемоника организма BACSU, а мнемоника функции – EFTS, то на сайте http://www.uniprot.org/ можно ввести в окошко поиска "mnemonic:EFTS_BACSU". Для экономии времени можно соединить много таких запросов оператором OR и потом скачать последовательности в виде единого fasta-файла.

Два обязательных метода: Neighbor-joining с bootstrap и Maximum likelihood (для экономии времени лучше без bootstrap) в MEGA. Для импорта в MEGA последовательности должны быть в fasta-формате и в файле, чьё имя кончается на ".fasta". Послледовательности можно выровнять заранее, но можно выровнять встроенными алгоритмами и уже после импорта в MEGA (правда после этого придётся сообразить, как передать полученное выравнивание на вход программам построения деревьев, возможно, это получится не сразу).

В протокол вставьте изображения деревьев, приведите описание различий между ними (если таковые есть) и интерпретацию bootstrap-значений.

***

Как дополнительное задание попробуйте освоить пакет PHYLIP, в первую очередь программы protdist и fitch из него. Ещё одна неплохая программа (уже не из пакета PHYLIP) – FastME (тоже попробуйте освоить). И PHYLIP, и FastME принимают выравнивания в формате PHYLIP. Чтобы приготовить такое выравнивание из обычного (fasta):

seqret alignment.fasta phylip::alignment.phy

(в данном случае существенен префикс "phylip::" перед именем файла, а не расширение самого имени!)

Для получения красивой картинки можно импортировать дерево в MEGA (имя файла должно иметь расширение ".tre" или ".nwk"), но можно и освоить программу drawgram из PHYLIP.

Задание 4 (standalone blastp)

Скачайте из Uniprot референсные протеомы представителей Porifera (губки) и Placozoa. Проиндексируйте для BLAST тот и другой протеомы программой makeblastdb. Поищите программой blastp в обоих протеомах гомологи нескольких человеческих белков, например: миоглобина, альфа-тубулина, альфа-актина, сывороточного альбумина, титина, кальмодулина, каких-либо цитохромов и т.д. и т.п. (на ваше усмотрение, но не менее пяти разных белков). Опишите результаты в возможно более наглядной форме (желательны таблицы). Обращайте внимание на общее число находок, число находок с низким e-value (будем считать низким e-value меньше одной тысячной), проценты идентичности и сходства в выравниваниях, процент покрытия человеческого белка выравниваниями. Можно ли на основании анализа полученных данных с той или иной долей уверенности ответить на вопрос: какая группа всё же раньше отделилась от основного ствола Metazoa: губки или Placozoa? (Пояснение: будем антропоцентрически считать, что человек — представитель основного ствола; тогда белки того организма, что раньше ответвился, будут чаще более удалены от человеческих).

Задания 3

  1. Сделайте множественное выравнивание белков из упражнения 5 заданий 2 (включая тот белок, что выбран в упр. 4) и откройте выравнивание в Jalview.
    • Способ 1. Запустите программу Muscle: muscle -in input.fasta -out output.fasta (где input.fasta — файл с последовательностями в fasta-формате, а output.fasta — новый файл, в который будет положено выравнивание). Затем запустите Jalview и импортируйте выравнивание (File → Input Alignment → From file).

    • Способ 2. Запустите Jalview и импортируйте невыровненные последовательности. Затем вызовите по сети программу выравнивания (Web Service → Alignment → Muscle with Defaults).

В меню Colour выберите наиболее информативную, по вашему мнению, раскраску (а основная информация, которую мы получаем из выравнивания — это возможности замены остатков интересующего нас белка в его гомологах; раскраска должна облегчать восприятие этой информации). Опишите выравнивание: его длину, сколько примерно в нём консервативных колонок, по всей ли длине гомологичны белки, какие участки наиболее консервативны, что ещё удалось понять о данных белках благодаря анализу выравнивания. Сохраните "Jalview project" (File → Save project, получается файл с расширением jvp) и пришлите вместе с протоколом.

  1. Создайте набор локальных выравниваний одного из белков с другими: water protein.fasta set.fasta set.water -auto (где protein.fasta — файл с одним белком, set.fasta — файл с многими белками, set.water — имя выходного файла). Выпишите в протокол характеристики выравниваний: вес выравнивания (Score), длину, проценты идентичности и сходства, число гэпов. (Указание: grep — очень полезная в разных ситуациях программа). Какой белок из набора самый родственный исходному и какой — наименее родственный? Найдите на множественном выравнивании участок исходного белка, попавший в локальное выравнивание с самым далёким из гомологов вашего набора. Совпадает ли выравнивание на этом участке с полученным программой water? (Выравнивания совпадают, если сопоставления букв разных последовательностей, задаваемые выравниванием, одинаковы).

  2. Выберите какую-нибудь пару предположительно гомологичных, но не слишком близких белков. Можно взять какую-нибудь пару из предыдущих упражнений, а можно, например, белки с одинаковыми названиями, один из дрожжей, другой из человека. Создайте 100 случайных перемешиваний последовательности одного из этих белков программой shuffleseq пакета EMBOSS. Сделайте: а) локальные (программой water) б) глобальные (программой needle) выравнивания последовательности другого белка со случайно перемешанными. Сравните эти выравнивания с выравниваниями (соответственно локальным и глобальным) настоящих последовательностей: во-первых, посмотрите на совокупность весов случайных выравниваний (опять-таки grep в помощь) и насколько отличается от них вес настоящего выравнивания, во-вторых, посмотрите на сами выравнивания и попытайтесь сформулировать, как по внешнему виду распознать выравнивание неродственных последовательностей. Лучше повторить это упражнение два-три раза для разных пар белков (в том числе для какой-нибудь пары достаточно далёких, чья гомологичность сомнительна). По тому, насколько отличается выравнивание настоящих последовательностей от выравниваний случайно перемешанных, можно судить о достоверности вывода о гомологичности белков.

Задания 2

  1. С помощью поиска на сайте ENA найдите в разделе STD банка EMBL запись, описывающую геном какого-либо вируса. Выбор вируса –- за вами. Лучше выбирайте вирусы с небольшим геномом -– менее 15 000 п.н.
  2. Сохраните в рабочую директорию выбранный геном в двух форматах –- EMBL (полную запись) и fasta. Названия файлов — AAAAAAA.embl, AAAAAAA.fasta, где AAAAAAA — код доступа записи EMBL с геномом вируса, например, JX453331.
  3. Кратко опишите в протоколе геном вируса (название вируса, таксономия, число пар нуклеотидов, число описанных в записи генов и закодированных белков).
  4. Скопируйте из Uniprot файлы с полной записью и с последовательностью в fasta-формате одного из белков вируса. Опишите в протоколе всю понятную вам информацию из записи Uniprot. Названия файлов — AAAAA.uniprot, AAAAA.fasta ; AAAAA – код доступа записи Uniprot. Выбор белка – за вами. Выбирайте белок, про который хоть что-то известно (есть название, отличное от “unknown protein”).
  5. Найдите и сохраните в файле в формате fasta последовательности из Uniprot 10–15 белков, имеющих такое же название, что и выбранный вами белок (см. 4.) и принадлежащий вирусам из того же семейства, что и выбранный вами вирус (см. 1.). Уровень родства и название белка можно, при необходимости, разумно варьировать.

Имя файла — TTTTTTT_prot.fasta, где TTTTTT — краткое название семейства.

Указания и подсказки к заданиям 2

  1. Работайте на сервере http://www.ebi.ac.uk/ena/. Перейдите по ссылке “Advanced search” в разделе “Text search”. Выберите “Sequence”: возникнет форма поиска из многих окошек. Вам нужны только три окошка: в “Taxon name”, впишите либо “Viruses”, либо (лучше) латинское название какого-либо семейства вирусов; поставьте галочку против “Include subordinate taxa”; в окошке Description напишите “* genome *” (именно так, со звёздочками спереди и сзади!), в окошке “Data class” (в самом низу) выберите “STD”, после чего найдите кнопку Search и нажмите её. Пройдите по одной из ссылок “View all results” (в этом месте стоит не торопясь прочитать, что кроется за каждой из ссылок), и выберите запись, описывающую геном приглянувшегося вам вируса (внимательно, не все записи описывают полные геномы или хотя бы сегменты геномов! ).

  2. Пройдя по гиперссылке слева от описания, найдите справа раздел Download и сохраните два файла: полную запись в EMBL-формате (“Text”) и последовательность в fasta-формате (“Fasta”). Следите за расширениями имён файлов, они должны быть не txt, а embl и fasta. Если файл сохранился с неверным расширением, нужно переименовать его.
  3. Гены и белки описаны в поле FT полной записи.
  4. Найдите в описании белка в поле FT записи EMBL номер доступа (AC) банка Uniprot: он состоит из шести символов, первый из которых — заглавная буква. Если AC записи Uniprot, к примеру, P00174, то полная запись находится по адресу http://www.uniprot.org/uniprot/P00174.txt, а в fasta-формате – по адресу http://www.uniprot.org/uniprot/P00174.fasta .

  5. Откройте сайт Uniprot http://www.uniprot.org/ , пройдите по ссылке Advanced. В верхнем левом окошке выберите “Taxonomy [OC]”, в верхнее правое впишите название семейства, в нижнем левом выберите “Protein name [DE]”, против него впишите слово (слова) из описания белка. Получив список находок, поставьте галочки против 10–15 из них и нажмите Download, далее читайте и поступайте по смыслу.


Задания 1