Kodomo

Пользователь

Учебная страница курса биоинформатики,
год поступления 2016

Описание пакета standalone BLAST+ (современный BLAST) на kodomo и на его родине NCBI По ссылке BLAST+ features найдете список команд поиска - blastp, blastn и др.

Все остальное задается в параметрах. Параметры команды можно узнать так: blastn -help и аналогично для других команд.

Задание 1

Для определения уровня таксономии стоит посмотреть сколько замен характерно для представителей вида (рода, семейства, ...) на данном участке. Выравнивания можно построить из скачанных aligned sequences, предварительно отметив те несколько, которые Вам интересны.

Данные, которые вы приведете, должны подтверждать ваши выводы, и содержать минимальную информацию для возможности быстрой перепроверки. Допустимы скриншоты выдачи BLAST, но не ссылки на сайт NCBI. Последние существуют ограниченное время.

Задание 2

В отчете укажите (1) все параметры запуска BLAST. Они могут отличаться только по алгоритму BLAST и длине слова! (2) таблицу с числом находок каждого алгоритма; (3) примеры находок одним из алгоритмов, не найденных другим; (4) другие данные, демонстрирующие результат - скриншоты выдачи BLAST, таблицы находок для удобства сравнения - на ваше усмотрение; (5) помните, что все результаты нужны чтобы обосновать вывод: "Сравнение ... демонстрирует, что ....". В таком роде.

Оригинальность методов оценивается!

Задание 3

Подумайте или посмотрите в презентации какую разновидность BLAST использовать.

Для каждого белка надо обосновать ответ либо положительный - есть гомолог, вероятно, выполняющий ту же функцию, и тогда охарактеризовать находку и параметры сходства; либо условно положительный - есть гомолог, но параметры сходства не таковы, чтобы утверждать сохранение функции; либо отрицательный - нет гомологов, и тогда описать результат поиска BLAST. В последнем случае интересны возможные объяснения отсутствия белка.

К вопросу от условно положительном ответе. Помните, что гомологичны могут быть отдельные домены, а не весь белок.

В отчете напишите пару фраз о белке. В этом задании интерес в том, насколько распространен белок, исходя из его функции, и насколько консервативен - если найдете данные об этом.

Выполняйте с помощью локального BLAST (версия BLAST+) на kodomo или установите его на свой компьютер, см. инструкцию

Задание 4

Выберите скэффолд подходящей длины. Информацию о длинах скэффолда можно полечить командой infoseq пакета EMBOSS:

infoseq <имя файла> -only -name -length

Получить последовательность нужного скэффолда можно командой seqret:

seqret <имя файла>:<имя последовательности> -out <имя выходного файла>

Если в контиге не нашлось ни одного гена, то выберите другой контиг.

Задание 5*: оценка сходства геномов вирусов

Поскольку я не знаю как оценивать сходство двух геномов вирусов, то принимается любой способ. Например,

Открою секрет: нет единого мнения о том, как описывать филогению вирусов по последовательностям геномов из-за их быстрой эволюции и частых потерь и приобретений новых генов