Учебная страница курса биоинформатики,
год поступления 2020
Упражнения
Упражнения нужно выполнить обязательно, но в отчете их отражать не нужно.
- С помощью расширенного поиска по базе Nucleotide на сайте NCBI найдите любую нуклеотидную последовательность какого-нибудь динозавра (Dinosauria). А теперь попробуйте ограничить выдачу только последовательностями, входящими в состав полных геномов.
- Чем отличаются поля "Organism" и "Primary Organism" в конструкторе запроса? Запустите поиск Dinosauria по полю Organism, а потом отфильтруйте только находки, принадлежащие вирусам. Просмотр любой из находок поможет понять различие указанных полей.
Найдите полногеномную сборку для любого динозавра в базе Assembly. Попробуйте два варианта – переход по ссылке со страницы нуклеотидной записи компонента генома (не митохондрии!), и расширенный поиск по базе Assembly. Какую информацию можно получить из записи в этой базе данных?
- Найдите любую последовательность ДНК мамонта или неандертальца.
- Есть ли в базе Assembly запись про геномную сборку любого из этих организмов?
- Найдите соответствующие записи в базах Taxonomy и Genome. Какая информация содержится в записях из этих баз данных? Есть ли ссылки на геномные сборки?
- Теперь попробуйте найти любую последовательность немитохондриальной ДНК любого из этих организмов. Загрузите её в формате fasta.
- Найдите любой полный митохондриальный геном мамонта. Какая у него длина? Сколько в нем генов белков? А сколько генов тРНК?
- Загрузите все последовательности белков из этого митохондриального генома в формате fasta (обратите внимание на ссылку "Send to" в правом верхнем углу центральной колонки страницы).
- Какая длина митохондриального генома любого из современных слонов? А какая общая длина последовательности у полногеномной сборки какого-нибудь современного слона?
Задания практикума 7
Отчёт – страница со ссылкой со страницы семестра. Мягкий дедлайн – 23:59 26 октября, жесткий дедлайн – 01:00 2 ноября. После мягкого дедлайна штраф 0.5 балла, после жесткого – 2 балла.
1. Опишите сборку генома эукариотического организма
Организм (точнее, вид) – на ваш выбор, но это должен быть многоклеточный эукариот.
В отчёте укажите:
- латинское название вида и его русское название (если есть);
- краткое описание (можно из википедии, но копипаста запрещена, перескажите своими словами);
- желательна картинка (с указанием источника);
- число сборок генома.
Потом выберите одну "лучшую" сборку и для нее привидите следующую информацию:
- название (assembly name);
AC сборки из RefSeq (если нет, то из GenBank);
- уровень сборки (assembly level);
- общую длину последовательности;
- число контигов и скэффолдов;
- N50 и L50 для контигов и скэффолдов;
ссылку на публикацию (статью в PubMed) с описанием проекта (если есть);
ссылку на последовательность одного из контигов в формате .fasta (файл на kodomo).
Для поиска используйте ссылку "Browse by Organism" на странице NCBI Genome, или просто поиск по NCBI Genome (примерно то же самое). Лучшая сборка – это, в первом приближении, самая свежая сборка с самым высоким уровнем (Genome > Chromosome > Scaffold > Contig). Однако надо критически относиться к приведенной информации (особенно в NCBI Genome).
Добыть последовательность контига (не хромосомы!) можно разных источников. Можно либо просмотреть проект WGS в NCBI Sequence Set Browser и далее выбрать один из контигов во вкладке Contigs. Либо сначала найти "master record" проекта WGS в базе Nucleotide, перейти из нее по ссылке на список контигов и выбрать один из них. Со страницы нуклеотидной записи контига получить файл .fasta довольно просто. Ключевая фраза: "send to file". Не выбирайте контиги большого размера! Возьмите маленький. Если в сборке все контиги большие (> 500 kb), то возьмите другую (более плохую) сборку.
2. Скачайте последовательности CDS одного из прокариотических вирусов
Для этого сначала получите список полных геномов прокариотических вирусов, удовлетворяющих персональным условиям из таблицы. Поиск нужно производить по базе Nucleotide на сайте NCBI. В отчете обязательно нужно привести текст запроса и количество находок в GenBank и RefSeq.
Потом выберите один геном и для него приведите:
- AC нуклеотидной записи;
- латинское название и TaxID вида;
- тип генома: DNA/RNA, ds/ss, линейный/кольцевой (не вся эта информация доступна из записи, но постарайтесь определить каждый из 3 параметров);
- хозяина вируса (все, что удалось узнать из записи);
ссылку на файл .fasta с участками генома, предположительно кодирующими белки (CDS).
Как получить файл разберитесь сами. Ключевые фразы: "send to file", "coding sequences". Кратко опишите в отчете, как получили файл.
3. Опишите пять ключей, используемых в таблице локальных особенностей
Описывать нужно именно ключи таблицы локальных особенностей (Feature keys), а не ключи-квалификаторы (Qualifiers). Проще всего найти описание ключей на сайте INSDC, но эта информация есть и на сайтах нуклеотидных архивов.
Выбирайте ключи поинтереснее! Для каждого ключа приведите описание (на русском) и пример использования (AC и фрагмент реальной записи, в которой встречается такой ключ, не забывайте про нормальное форматирование, например с помощью <pre>). Пример использования найдите самостоятельно, не копируйте примеры из документации!