Учебная страница курса биоинформатики,
год поступления 2014
Задание 1 - см подсказки к практикуму 7
Задание 2 - подробно описано в "заданиях"
Задание 3.1
- Используйте blast "белок против нуклеотидной базы данных" на сайте NCBI
- Для каждого белка
- Найдите запись каждого из белков в Uniprot. Сохраните название белка и AC и fasta - последовательность
- blast (NCBI) понимает AC белка из Uniprot, но не ID.
- Выберите БД Refseq и ограничьте область поиска вашим организмом
- Опишите находки и сделайте выводы
- Найдите запись каждого из белков в Uniprot. Сохраните название белка и AC и fasta - последовательность
Задание 3.2
- Используйте пакет blast+ на kodomo или установите его на свой коммпьютер
См. инструкцию по локальному blast (включая установку)
Задание 4: оценка сходства геномов вирусов
- Необходим локально установленный пакет blasp+ (см. подсказки к заданию 3.2)
- Скачайте геномы и сохраните их в одном fasta файле
- Поиск "все против всех"
- используйте tblastx: ТРАНСЛЯЦИЙ входных последовательностей против ТРАНСЛЯЦИЙ нуклеотидной базы данных
- сделайте базу индексов blast для созданного fasta файла
- запустите tblastx, подав на вход тот же самый fasta файл; таким образом, трансляции каждого генома сравниваются с трансляциями всех геномов
- установите табличный формат выдачи (-outfmt 7 или -outfmt -8); отличие - в наличии заголовков таблиы
используйте python скрипт для удаления не информативных и слабо сходных находок из полученной таблицы.
- на вход скрипту подается файл с табличной выдачей blast (-outfmt 7 или -outfmt -8)
- при поиске "все против всех" не информативными являются
- (1) находка самой себя (ведь blast БД содержит все последовательности, а на вход blast подаются по очереди те же самые последовательности);
- (2) находка A против B если уже была находка B против A
- слабое сходство между последовательностями регулируется порогами на процент совпадающих букв (identity%), длину выравнивания, E-value, bit score
- эти пороги задаются в командной строке
Запустите скрипт python revise_blast_7.py без параметров для получения описания.
python revise_blast_7.py -h для подсказки по параметрам.
- Финальная таблица открывается Excel'ем для анализа