Учебная страница курса биоинформатики,
год поступления 2017
Указания к заданиям практикума 8
Задание 1
- используйте BLASTN ("Somewhat similar sequences") по банку nr;
- для аннотации используйте несколько лучших из достоверных находок;
- в отчете укажите, фрагмент какого гена находится в вашей последовательности, и к какому таксону принадлежит организм, из которого была получена ДНК; под геном понимается не только ген, кодирующий белок, но и ген, кодирующий РНК или участок РНК, использующийся в штрихкодировании;
- в зависимости от полученного списка гомологов можно установить принадлежность до вида, рода, семейства и т.д.; ваше решение можно обосновать, исходя из уровня сходства аннотированных последовательностей гомологов;
ваши выводы должны быть обоснованы полученными результатами. Способ представления результатов — на ваше усмотрение. Выводы без подтверждения не могут быть признаны правильными; результаты сами по себе недостаточны; пишите примерно так: "Последовательность содержит участок гена белка такого-то, потому что ..." и приводите данные, подтверждающие вывод.
Для определения уровня таксономии стоит посмотреть, сколько замен характерно для представителей вида (рода, семейства, ...) на данном участке. Выравнивания можно построить из скачанных aligned sequences (ищите на странице с результатом), предварительно отметив те несколько, которые вам интересны.
Данные, которые вы приведёте, должны будут подтверждать ваши выводы и содержать минимальную информацию для быстрой перепроверки. Допустимы скриншоты выдачи BLAST, но не ссылки на страницы с результатами на сайте NCBI (эти страницы существуют ограниченное время). Лучше скопировать часть выдачи (например, выравнивание вместе с его характеристиками) и вставить в отчёт как преформатированный текст (тэг <PRE>...</PRE>).
Задание 2
В этом задании важно ограничить область поиска так, чтобы: (i) находок было разумное число, например, несколько десятков; (ii) находки были разнообразны: сравнивать списки находок имеющих 99% сходство со входной — пустое занятие; но и находки сомнительные, со сходством менее 60% и/или E-value > 0,001, тоже не очень пригодны для сравнения алгоритмов. Разберитесь, как использовать интересные способы ограничения. Например, можно ли исключить из поиска род, но ограничить таксон семейством?
Чувствительность BLASTN увеличивается при уменьшении длины слова, может также улучшиться при выборе Match/Mismatch Scores, лучше приспособленного к меньшему проценту сходства последовательностей.
В отчете укажите все параметры каждого запуска BLAST. Они могут отличаться по алгоритму BLAST, длине слова и параметрами Match/Mismatch Scores. Приведите таблицу с числом находок каждого алгоритма. Желательны примеры находок одним из алгоритмов, не найденных другим. Приветствуются другие данные, демонстрирующие результат, например скриншоты выдачи BLAST. Помните, что все результаты нужны чтобы, обосновать вывод: "Сравнение ... демонстрирует, что ....".
Оригинальность методов оценивается!
Задание 3
Подумайте или посмотрите в презентации, какую разновидность BLAST использовать. Выполняйте с помощью локального (Standalone) BLAST (точнее, BLAST+) на kodomo или установите его на свой компьютер, см. инструкцию, а также описание пакета BLAST+ на NCBI (там по ссылке "BLAST+ features" можно найти список команд поиска: blastp, blastn и т.д). Параметры команды можно узнать так: blastn -help и аналогично для других команд.
Для каждого белка надо обосновать ответ: либо положительный — есть гомолог, вероятно, выполняющий ту же функцию, и тогда охарактеризовать находку и параметры сходства; либо условно положительный — есть гомолог, но параметры сходства не таковы, чтобы утверждать сохранение функции; либо отрицательный — нет гомологов, и тогда описать результат поиска BLAST. В последнем случае интересны возможные объяснения отсутствия белка.
К вопросу об условно положительном ответе: помните, что гомологичны могут быть отдельные домены, а не весь белок.
В отчете напишите пару фраз о белке. В этом задании интерес в том, насколько распространен белок, исходя из его функции, и насколько консервативен (если найдете данные об этом).
Задание 4
Выберите контиг подходящей длины. Информацию о длинах контигов можно получить командой infoseq пакета EMBOSS:
infoseq <имя файла> -only -name -length
Получить последовательность нужного контига можно командой seqret:
seqret <имя файла>:<имя последовательности> -out <имя выходного файла>
Можно делать на сайте NCBI, в этом случае (памятуя о филогенетическом положении амёбоафилидиума), стоит искать по refseq protein, ограничив поиск грибами (Fungi). Другой способ — скачать из Uniprot несколько полных протеомов грибов (лучше из разных классов), проиндексировать для blast и искать локально.
Если в контиге не нашлось ни одного гена, то выберите другой контиг.
Задание 5
Найдите (через EBI или же в Refseq через NCBI) все полные геномы бактерий какого-нибудь рода. Можно взять, например. рода Mycoplasma, Brucella, Chlamydia или любые другие. Выберите пару разных видов (не разных штаммов одного вида, чтобы вероятность существенных перестроек была больше). На сайте NCBI BLAST поставьте галочку в чекбокс Align two or more sequences, после этого в два окна можно копировать AC записей Refseq или ENA. Сравнение (в отличие от поиска по банку) много времени не занимает, поэтому можно экспериментироватьс параметрами, пока не получится красивая картинка. В частности, можно сначала попробовать Megablast, а если карта получается слишком бедная — BLASTN. Если на карте, по вашему мнению, много лишнего, имеет смысл ужесточить порог на E-value.