Цель задания: Выбрать сборку генома эукариотического организма, подходящую по некоторым параметрам качества, охарактеризовать ее по предложенному плану и скачать файлы, которые потребуются для работы на следующем занятии. Познакомиться с системами поиска на сайтах NCBI и ENA.
Результат: По заданиям этого и следующего практикума вы оформляете страницу на Вашем сайте для сдачи ее на коллоквиуме 10 ноября. Обязательно наличие таблиц и рисунков с подписями, полностью объясняющими читателю, не знакомому с текстом заданий, что в таблице и на рисунке показано. В отчете может быть также любой другой сопроводительный текст, за качество которого Вы ручаетесь (он может сыграть как в плюс, так и в минус на коллоквиуме, в зависимости от его качества и степени понимания написанного Вами).
Практикум №7. Обязательные задания
1. Выберите качественную сборку генома эукариотического организма
- Выберите любой эукариотический организм, который Вам нравится. Выпишите себе его латинское название и название на английском.
Через систему поиска на сайте NCBI Datasets найдите сборки генома выбранного организма. Если не находится ничего по полному названию (род, вид, разновидность и т.п.), попробуйте поискать только по роду. Также искать можно по более высоким таксономическим единицам (семейство, порядок и т.п.). Нужно найти сборку эукариота, которая будет отвечать следующим требованиям:
Иметь аннотированные гены (хотя бы в одной версии - RefSeq или GenBank)
Иметь качество сборки на уровне Chromosome и выше (то, что означает каждое качество сборки, указано, например, в файле README_assembly_summary.txt на NCBI FTP).
Если найдено несколько сборок по Вашему запросу, выберите ту, которая отмечена как референсная (раньше некоторые избранные геномные сборки назывались "референсными", а некоторые - только "репрезентативными", но недавно эта градация была отменена).
Если ни одной референсной сборки выбранного организма с данными параметрами не находится, можно сделать одно из двух: 1) выбрать новый организм или 2) если Вам нравится именно этот организм, выбрать наилучшую из найденных сборок (описав при этом, по каким параметрам Вы это сделали) — но в этом случае с Вас объяснение, откуда такая любовь к этому организму
2. Выпишите в виде таблицы некоторые характеристики выбранной сборки
На Вашей странице заполните таблицу со следующей информацией о выбранной сборке:
Идентификатор GenBank;
Идентификатор RefSeq (при наличии);
- Уровень сборки генома;
- Общий размер генома (п.н.);
- Число фрагментов генома в сборке;
Параметры N50 и L50 для всех элементов (контигов, скэффолдов) — с обязательным пояснением, что они означают (в самой таблице или же в подписи к ней).
3. Скачайте сборку генома, аннотацию и предсказанные белковые последовательности выбранного организма
В зависимости от того, в какой базе данных есть аннотация генов, скачайте информацию о Вашей сборке из GenBank или RefSeq (через NCBI FTP, или через систему поиска на сайте). Вам понадобятся как минимимум три файла:
Нуклеотидные последовательности генома (в формате FASTA) – если после скачивания у Вас будет превышена квота, то скачайте на домашний компьютер;
- Последовательности белков (в формате FASTA);
Последовательности генома с аннотацией (GBFF) – если после скачивания у Вас будет превышена квота, то скачайте на домашний компьютер.
4. Знакомство с поисковыми системами ENA и NCBI
- Выберите какое-нибудь популярное название белка (гемоглобин, трипсин, инсулин, пропердин, ...)
- Пользуясь Advanced Search на сайте NCBI, выясните и напишите в отчёте:
- сколько всего записей нуклеотидных баз данных посвящено генам и мРНК белков с таким словом в названии?
сколько из них — из GenBank, а сколько — из RefSeq?
сколько их них (отдельно для GenBank и RefSeq, мРНК и участков генома) — записи, описывающие последовательности человека?
- по возможности выясните, все ли эти записи действительно содержат последовательности, кодирующие белки с соответствующей функцией.
- Пользуясь Advanced Search на сайте ENA, выясните и напишите в отчёте, сколько в ENA записей, описывающих: (а) мРНК и (б) гены белков человека, чьё название содержит выбранное слово
- (*) Проделайте всё то же на сайте DDBJ. Опишите свои впечатления от трёх поисковых систем. Какой из них вы скорее воспользуетесь в реальной ситуации?
Какие вопросы, вероятно, будут спрашивать на коллоквиуме по этому практикуму:
- Какого эукариота Вы искали, почему, несколько слов о нем.
Как соотносится число фрагментов в геноме и количество хромосом у этого эукариота (цифры для гаплоидного n и диплоидного 2n наборов, очевидно, отличаются).
- Как Вы искали сборки генома этого эукариота, сколько примерно сборок было найдено по нему.
- Что означает указанный Вами уровень сборки.
На основании своей таблицы и, если есть, литературных данных о типичном для данного организма числе хромосом, ответьте на вопрос – насколько данная сборка, с Вашей точки зрения, отражает биологическую информацию о геноме выбранного организма.
Дополнительные задания
Выполнение данных заданий для получения зачета за практикум не обязательно, но добавит дополнительных баллов.
5. Есть ли в выбранной сборке геномы органелл?
Найдите информацию о том, есть ли в выбранной сборке геномы митохондрий и пластид. На странице объясните, как Вы искали эту информацию. Если геномы митохондрий/пластид обнаружены, приведите отдельно краткую характеристику генома каждой из найденных органелл, заполнив таблицу со следующими колонками:
- Идентификатор записи (ACCESSION);
- Тип органеллы;
- Число кодирующих последовательностей (CDS);
- Число генов рРНК;
- Число генов тРНК;
- Число псевдогенов.
6. Постройте диаграмму длин фрагментов генома
Используйте файл с нуклеотидными последовательностями генома или другую информацию из базы данных. Любым доступным способом (например, скриптом на Python) посчитайте длины каждого фрагмента генома, отсортируйте эти длины по убыванию и нарисуйте график, показывающий убывание длины. Отметьте на графике точку, отвечающую контигу, на который указывают величины N50 и L50. В отчете приведите график и опишите любые другие свои наблюдения и соображения в связи с ним.
7. Скачайте все остальные файлы, которые представлены для Вашей сборки
Воспользуйтесь NCBI FTP для поиска остальных файлов, которые доступны для выбранной сборки. Информацию о всех скачанных файлах можно представить в отчете в виде таблицы или как-то иначе. Для каждого файла укажите его название, описание содержимого и в свободной форме укажите информацию, которую Вы смогли получить из данного файла о Вашей сборке (например, число псевдогенов и т.п.)
Скачивайте на домашний компьютер, чтобы не выбрать раньше времени квоту на kodomo

2025
2023
2022
2021
2020
2019
2018
2017