Учебная страница курса биоинформатики,
год поступления 2018
Задания по BLAST
Отчёт – страница со ссылкой со страницы семестра. Мягкий дедлайн – начало следующего занятия (11 утра 29 октября), жесткий дедлайн – 11 утра 5 ноября.
1. Определите таксономию и функцию прочтённой вами нуклеотидной последовательности (из практикума 6)
В отчете укажите (i) предполагаемую функцию или аннотацию последовательности; (ii) предполагаемую таксономию; (iii) обоснования своих решений.
Подумайте или посмотрите в презентации: (i) какой вариант алгоритма BLAST использовать и в какой базе данных искать; (ii) какие находки и сколько достаточно для аннотации; (iii) как решить, к какому уровню таксономии – виду, роду, семейству, ... – возможно отнесение находки (см. подсказки); (iv) какие данные стоит привести в отчете (см. подсказки).
2. Сравните списки находок нуклеотидных последовательностей тремя разными вариантами blast
Один из вариантов – megablast, второй – blastn с параметрами по умолчанию, третий – blastn с максимально чувствительными параметрами. В отчете напишите, что демонстрирует сравнение трех вариантов. Возьмите сначала ту же последовательность, что в задании 1. А потом один из CDS (любой, желательно не самый короткий) вируса из предыдущего практикума. Каждый раз ограничивайте область поиска так, чтобы результат сравнения был показателен (и чтобы не ждать слишком долго, см. подсказки). Подробнее об оформлении отчета см. в подсказках.
3. Проверьте наличие гомологов трех белков в неаннотированном геноме
Организм Amoeboaphelidium protococcarum (примитивный родственник грибов). Сборка генома лежит на kodomo в файле /P/y18/term3/block2/X5.fasta.
Задание следует выполнить три раза, для любых трёх белков, которые, по вашему мнению, должны быть почти у всех эукариот. В отчете обязательно опишите, как получили последовательность белка для поиска.
4. Найдите какой-нибудь ген белка в одном из контигов
Для поиска выберите один контиг (или скэффолд, не важно) длины порядка десятков тысяч пар нуклеотидов, в котором ещё не аннотированы гены белков. Описать в отчете нужно ОДИН наиболее правдоподобный ген, найденный с помощью BLAST. Едва ли получится найти точные границы гена, но это и не требуется.
Если очевидно, что в контиг попал только фрагмент гена, можно попробовать поискать оставшуюся часть в других контигах (и, возможно, получить за это бонусные баллы).
5* Карта локального сходства геномов двух бактерий
Выберите две бактерии одного рода, для которых доступны полные геномы. Постройте их карту локального сходства с помощью подходящего варианта BLAST. В отчёте приведите изображение карты и описание наиболее заметных перестроек, отличающих один геном от другого.
Важно: нужно подобрать пару, для которой есть что описывать! Если геномы практически идентичны, возьмите другие бактерии. Задание дополнительно, будет оцениваться строго и субъективно.
Комментарий для следующих лет.
Студенты жаловались, что задание получилось слишком объемное (значительно больше других заданий блока).
В первом задании надо лучше описать, как можно делать выводы о таксономической принадлежности, редкие люди смогли адекватный обоснованный вывод привести.
Скучнее всего было проверять 2 задание - обычно чисто формальные отчеты, чаще всего еще и халтурные. Стоит подробнее расписать, что требуется (может даже заставить оценить специфичность и чувствительность по спискам находок). Думаю, лучше всего сделать задание допом и оценивать строже.
В третьем надо требовать обсуждение покрытия на уровне заданий (а не замечаний, как у меня получилось). Иначе они пишут про сохранение функции при находке трети белка, или про сохраниние только домена при покрытии 100% но низком identity. И может это задание стоит перенести в следующий практикум, сделав заданием исключительно на локальный бласт.
Четвертое, вроде, ОК, но к нему уже у всех силы кончались.
ИР