Учебная страница курса биоинформатики,
год поступления 2018
Практикум 7. Банки нуклеотидных последовательностей
Отчёт – страница со ссылкой со страницы семестра. Мягкий дедлайн – начало следующего занятия (11 утра 22 октября), жесткий дедлайн – 11 утра 29 октября.
1. Охарактеризуйте качество сборки генома эукариотического организма
Организм (точнее, вид) – на ваш выбор, но есть ограничения:
- многоклеточный эукариот,
- не млекопитающее (все эти кошечки, собачки, лошадки и т.д. уже приелись).
В отчёте укажите:
- название вида (латинское и русское);
- краткое описание (можно из википедии, но копипаста запрещена, перескажите своими словами);
- желательна картинка (с указанием источника);
- число сборок генома.
Потом выберите одну лучшую сборку и для нее привидите следующую информацию:
- название (assembly name);
AC сборки из RefSeq (если нет, то из GenBank);
- "уровень" сборки (assembly level);
- общую длину последовательности;
- число контигов и скэффолдов;
- N50 и L50 для контигов и скэффолдов;
- число аннотированных белков;
- ссылку на публикацию с описанием проекта (если есть);
ссылку на последовательность одного из контигов в формате .fasta (файл на kodomo).
Для поиска используйте ссылку "Browse by Organism" на странице NCBI Genome, или просто поиск по NCBI Genome (примерно то же самое). Лучшая сборка – это, в первом приближении, самая свежая сборка с самым высоким "уровнем" (Genome > Chromosome > Scaffold > Contig). Однако надо критически относиться к приведенной информации (особенно в ДБ Genome). Если вы нашли классную сборку генома белой акулы на уровне хромосом и с покрытием 45x, но, согласно этой сборке, у акулы в геноме всего одна хромосома, да и та короче, чем у любого известного вируса, то, наверно, что-то с этой сборкой не так. Это не абстрактный пример, можете поискать (если я удержался, и на занятии не показал).
Чтобы добыть последовательность контига нужно сначала найти соответствующую запись WGS (есть несколько вариантов, как это сделать, опишите в отчете свой), а потом из неё перейти по ссылке на список записей для контигов. Как получить файл .fasta разберитесь сами. Ключевая фраза: "send to file".
2. Скачайте последовательности CDS одного из прокариотических вирусов
Для этого сначала получите список полных геномов прокариотических вирусов, удовлетворяющих персональным условиям из таблицы.
Поиск можете производить либо по Nucleotide на сайте NCBI, или по ENA на сайте EBI. В обоих случаях вас, вероятно, интересует "Advanced search". В отчете надо привести:
- где и как искали, текст запроса;
сколько находок в GenBank и RefSeq (NCBI) или в Release и Update (EBI).
Потом выберите один геном и для него приведите:
- AC нуклеотидной записи;
- латинское название и TaxID вида;
- тип генома: DNA/RNA, ds/ss, линейный/кольцевой;
- хозяина вируса (бактерия или архея, и род);
ссылку на файл .fasta с участками генома, предположительно кодирующими белки (CDS).
Как получить файл разберитесь сами. Ключевые фразы: "send to file", "coding sequences". Кратко опишите в отчете, как получили файл.
3. Опишите семь ключей, используемых в таблицах особенностей
- Описание можно искать на сайте NCBI, EBI или (что самое простое!) INSDC.
- Выбирайте ключи поинтереснее! Впрочем, выбор за вами.
Для каждого ключа приведите описание (на русском) и пример использования (фрагмент реальной записи с таким ключом, <pre> вам в помощь).
4* Поиск массовых геномных проектов
Ваша задача — придумать метод поиска информации о массовых (сотни и тысячи геномов) проектах по геномному секвенированию. Это может быть что угодно: веб-ресурс, содержащий информацию о таких проектах, продуманный запрос в гугл или PubMed, какая-то отдельная статья со списком (что хуже, потому что точно не обновляется), и т.д. В отчете привидите алгоритм поиска и одну конкретную полученную находку — геномный проект. Про этот проект нужно будет указать следующее (не обязательно всё): название проекта, ссылка на страницу, цель, год начала и завершения, организацию, страну, планируемое число геномов, сколько геномов секвенировано на настоящее время, последнюю публикацию по проекту (ссылка на PubMed).
Задание дополнительное, оцениваться будет строго и субъективно. Основная часть оценки — за метод поиска.
Комментарий для следующих лет.
В задании 3 надо уточнить, какие именно ключи требуются. Несколько человек описывали не feature keys, а qualifier keys.
Задание 4 попытался сделать 1 человек (зато с попыткой машинного обучения).