Учебная страница курса биоинформатики,
год поступления 2016
Описание пакета standalone BLAST+ (современный BLAST) на kodomo и на его родине NCBI По ссылке BLAST+ features найдете список команд поиска - blastp, blastn и др.
Все остальное задается в параметрах. Параметры команды можно узнать так: blastn -help и аналогично для других команд.
Задание 1
Для определения уровня таксономии стоит посмотреть сколько замен характерно для представителей вида (рода, семейства, ...) на данном участке. Выравнивания можно построить из скачанных aligned sequences, предварительно отметив те несколько, которые Вам интересны.
Данные, которые вы приведете, должны подтверждать ваши выводы, и содержать минимальную информацию для возможности быстрой перепроверки. Допустимы скриншоты выдачи BLAST, но не ссылки на сайт NCBI. Последние существуют ограниченное время.
Задание 2
В этом задании важно ограничить область поиска так, чтобы (i) находок было разумное число, например, несколько десятков; (ii) находки были разнообразны - сравнивать списки находок имеющих 99% сходство со входной - пустое занятие; но и находки сомнительные, со сходством менее 60% и/или E-value > 0.001, тоже не очень пригодны для сравнения алгоритмов. Посмотрите презентацию чтобы использовать интересные способы ограничения. Например, можно ли исключить из поиска род, но ограничить таксон семейством?
В отчете укажите (1) все параметры запуска BLAST. Они могут отличаться только по алгоритму BLAST и длине слова! (2) таблицу с числом находок каждого алгоритма; (3) примеры находок одним из алгоритмов, не найденных другим; (4) другие данные, демонстрирующие результат - скриншоты выдачи BLAST, таблицы находок для удобства сравнения - на ваше усмотрение; (5) помните, что все результаты нужны чтобы обосновать вывод: "Сравнение ... демонстрирует, что ....". В таком роде.
Оригинальность методов оценивается!
Задание 3
Подумайте или посмотрите в презентации какую разновидность BLAST использовать.
Для каждого белка надо обосновать ответ либо положительный - есть гомолог, вероятно, выполняющий ту же функцию, и тогда охарактеризовать находку и параметры сходства; либо условно положительный - есть гомолог, но параметры сходства не таковы, чтобы утверждать сохранение функции; либо отрицательный - нет гомологов, и тогда описать результат поиска BLAST. В последнем случае интересны возможные объяснения отсутствия белка.
К вопросу от условно положительном ответе. Помните, что гомологичны могут быть отдельные домены, а не весь белок.
В отчете напишите пару фраз о белке. В этом задании интерес в том, насколько распространен белок, исходя из его функции, и насколько консервативен - если найдете данные об этом.
Выполняйте с помощью локального BLAST (версия BLAST+) на kodomo или установите его на свой компьютер, см. инструкцию
Задание 4
Выберите скэффолд подходящей длины. Информацию о длинах скэффолда можно полечить командой infoseq пакета EMBOSS:
infoseq <имя файла> -only -name -length
Получить последовательность нужного скэффолда можно командой seqret:
seqret <имя файла>:<имя последовательности> -out <имя выходного файла>
Если в контиге не нашлось ни одного гена, то выберите другой контиг.
Задание 5*: оценка сходства геномов вирусов
- Необходим локально установленный пакет blast+
- Скачайте геномы и сохраните их в одном fasta файле
- Поиск "все против всех"
- сделайте базу индексов blast для созданного fasta файла
- запустите blast, подав на вход тот же самый fasta файл; таким образом, трансляции каждого генома сравниваются с трансляциями всех геномов
- установите табличный формат выдачи (-outfmt 7 или -outfmt -8); отличие - в наличии заголовков таблиы
используйте python скрипт для удаления неинформативных и слабо сходных находок из полученной таблицы.
- на вход скрипту подается файл с табличной выдачей blast (-outfmt 7 или -outfmt -8)
- при поиске "все против всех" не информативными являются
- (1) находка самой себя (ведь blast БД содержит все последовательности, а на вход blast подаются по очереди те же самые последовательности);
- (2) находка A против B если уже была находка B против A
- слабое сходство между последовательностями регулируется порогами на процент совпадающих букв (identity%), длину выравнивания, E-value, bit score
- эти пороги задаются в командной строке
Запустите скрипт python revise_blast_7.py без параметров для получения описания.
python revise_blast_7.py -h для подсказки по параметрам.
- Финальная таблица открывается Excel'ем для анализа
Поскольку я не знаю как оценивать сходство двух геномов вирусов, то принимается любой способ. Например,
- по максимальному проценту сходства (не очень хороший способ)
- по среднему проценту сходства (не очень хороший способ)
- по суммарной длине сходных белковых последовательностей (не очень хороший способ)
- ну, изобретите еще что-нибудь, пожалуйста!
Открою секрет: нет единого мнения о том, как описывать филогению вирусов по последовательностям геномов из-за их быстрой эволюции и частых потерь и приобретений новых генов