Kodomo

Пользователь

Учебная страница курса биоинформатики,
год поступления 2018

Практикум 7. Банки нуклеотидных последовательностей

Отчёт – страница со ссылкой со страницы семестра. Мягкий дедлайн – начало следующего занятия (11 утра 22 октября), жесткий дедлайн – 11 утра 29 октября.

1. Охарактеризуйте качество сборки генома эукариотического организма

Организм (точнее, вид) – на ваш выбор, но есть ограничения:

В отчёте укажите:

Потом выберите одну лучшую сборку и для нее привидите следующую информацию:

Для поиска используйте ссылку "Browse by Organism" на странице NCBI Genome, или просто поиск по NCBI Genome (примерно то же самое). Лучшая сборка – это, в первом приближении, самая свежая сборка с самым высоким "уровнем" (Genome > Chromosome > Scaffold > Contig). Однако надо критически относиться к приведенной информации (особенно в ДБ Genome). Если вы нашли классную сборку генома белой акулы на уровне хромосом и с покрытием 45x, но, согласно этой сборке, у акулы в геноме всего одна хромосома, да и та короче, чем у любого известного вируса, то, наверно, что-то с этой сборкой не так. Это не абстрактный пример, можете поискать (если я удержался, и на занятии не показал).

Чтобы добыть последовательность контига нужно сначала найти соответствующую запись WGS (есть несколько вариантов, как это сделать, опишите в отчете свой), а потом из неё перейти по ссылке на список записей для контигов. Как получить файл .fasta разберитесь сами. Ключевая фраза: "send to file".

2. Скачайте последовательности CDS одного из прокариотических вирусов

Для этого сначала получите список полных геномов прокариотических вирусов, удовлетворяющих персональным условиям из таблицы.

Поиск можете производить либо по Nucleotide на сайте NCBI, или по ENA на сайте EBI. В обоих случаях вас, вероятно, интересует "Advanced search". В отчете надо привести:

Потом выберите один геном и для него приведите:

Как получить файл разберитесь сами. Ключевые фразы: "send to file", "coding sequences". Кратко опишите в отчете, как получили файл.

3. Опишите семь ключей, используемых в таблицах особенностей

4* Поиск массовых геномных проектов

Ваша задача — придумать метод поиска информации о массовых (сотни и тысячи геномов) проектах по геномному секвенированию. Это может быть что угодно: веб-ресурс, содержащий информацию о таких проектах, продуманный запрос в гугл или PubMed, какая-то отдельная статья со списком (что хуже, потому что точно не обновляется), и т.д. В отчете привидите алгоритм поиска и одну конкретную полученную находку — геномный проект. Про этот проект нужно будет указать следующее (не обязательно всё): название проекта, ссылка на страницу, цель, год начала и завершения, организацию, страну, планируемое число геномов, сколько геномов секвенировано на настоящее время, последнюю публикацию по проекту (ссылка на PubMed).

Задание дополнительное, оцениваться будет строго и субъективно. Основная часть оценки — за метод поиска.