Учебная страница курса биоинформатики,
год поступления 2023
Цель задания: Выбрать сборку генома эукариотического организма, подходящую по некоторым параметрам качества, охарактеризовать ее по предложенному плану и скачать файлы, которые потребуются для работы на следующем занятии.
Результат: Страница на Вашем сайте с информацией о выбранной сборке со ссылкой на нее со страницы соответствующего семестра. Срок сдачи: до 22:59 22-ого октября 2024 г.. Срок сдачи с небольшой потерей баллов: + 1 неделя. Записывайтесь в очередь на проверку! Обратите внимание, что оцениваться будет помимо фактических данных связность представленного отчета (он должен быть понятен читателю, не знакомому с текстом заданий) и аккуратность оформления (например, наличие подписей к рисункам и таблицам, ссылок на источники и т.п.).
Практикум №7. Обязательные задания
1. Выберите качественную сборку генома эукариотического организма
- Выберите любой эукариотический организм, который Вам нравится. Выпишите себе его латинское название и название на английском.
Через систему поиска на сайте NCBI Datasets найдите сборки генома выбранного организма. Если не находится ничего по полному названию (род, вид, разновидность и т.п.), попробуйте поискать только по роду. Также искать можно по более высоким таксономическим единицам (семейство, порядок и т.п.). Нужно найти сборку эукариота, которая будет отвечать следующим требованиям:
Иметь аннотированные гены (хотя бы в одной версии - RefSeq или GenBank)
Иметь качество сборки на уровне Chromosome и выше (то, что означает каждое качество сборки, указано, например, в файле README_assembly_summary.txt на NCBI FTP).
Если найдено несколько сборок по Вашему запросу, выберите ту, которая отмечена как референсная (раньше некоторые избранные геномные сборки назывались "референсными", а некоторые - только "репрезентативными", но буквально на днях эта градация была отменена).
Если ни одной референсной сборки выбранного организма с данными параметрами не находится, можно сделать одно из двух: 1) выбрать новый организм или 2) если Вам нравится именно этот организм, выбрать наилучшую из найденных сборок (описав при этом, по каким параметрам Вы это сделали) — но в этом случае с Вас объяснение, откуда такая любовь к этому организму
На Вашей странице опишите:
Какого эукариота Вы искали, несколько слов о нем; картинка в качестве иллюстрации (с указанием источника изображения!) категорически приветствуется, а не пропущенная через себя копипаста и/или продукция ботов - категорически нет; особенно постарайтесь найти информацию о том, сколько у него хромосом (не забывайте указывать, говорите ли Вы о гаплоидном или диплоидном наборе – n или 2n).
- Каким был Ваш поисковый запрос, сколько сборок было найдено по нему.
- Какой уровень сборки у выбранной сборки, что это означает.
2. Выпишите в виде таблицы некоторые характеристики выбранной сборки
На Вашей странице заполните таблицу со следующей информацией о выбранной сборке:
Идентификатор GenBank;
Идентификатор RefSeq (при наличии);
- Общий размер генома (п.н.);
- Число фрагментов генома в сборке.
Параметры N50 и L50 для всех элементов (контигов, скэффолдов) — с обязательным пояснением, что они означают.
На основании данной таблицы, информации об уровне сборки (полученной в предыдущем задании) и литературных данных о типичном для данного организма числе хромосом дайте характеристику выбранной сборке - насколько она, с Вашей точки зрения, отражает биологическую информацию о геноме выбранного организма. Обоснуйте свой вывод ссылками на данные.
3. Скачайте сборку генома, аннотацию и предсказанные белковые последовательности выбранного организма
В зависимости от того, в какой базе данных есть аннотация генов, скачайте информацию о Вашей сборке из GenBank или RefSeq (через NCBI FTP, или через систему поиска на сайте). Вам понадобятся как минимимум три файла:
- Нуклеотидные последовательности генома (в формате FASTA);
- Последовательности белков (в формате FASTA);
- Последовательности генома с аннотацией (GBFF).
Представьте информацию о скачанных файлах в отчете в виде таблицы или списка. Для каждого файла укажите его название и описание содержимого.
Дополнительные задания
Выполнение данных заданий для получения зачета за практикум не обязательно, но добавит дополнительных баллов.
4. Есть ли в выбранной сборке геномы органелл?
Найдите информацию о том, есть ли в выбранной сборке геномы митохондрий и пластид. В отчете объясните, как Вы искали эту информацию. Если геномы митохондрий/пластид обнаружены, приведите отдельно краткую характеристику генома каждой из найденных органелл, заполнив таблицу со следующими колонками:
- Идентификатор записи (ACCESSION);
- Тип органеллы;
- Число кодирующих последовательностей (CDS);
- Число генов рРНК;
- Число генов тРНК;
- Число псевдогенов.
5. Постройте диаграмму длин фрагментов генома
Используйте файл с нуклеотидными последовательностями генома или другую информацию из базы данных. Любым доступным способом (например, скриптом на Python) посчитайте длины каждого фрагмента генома, отсортируйте эти длины по убыванию и нарисуйте график, показывающий убывание длины. Отметьте на графике точку, отвечающую контигу, на который указывают величины N50 и L50. В отчете приведите график и опишите любые другие свои наблюдения и соображения в связи с ним.
6. Скачайте все остальные файлы, которые представлены для Вашей сборки
Воспользуйтесь NCBI FTP для поиска остальных файлов, которые доступны для выбранной сборке. Информацию о всех скачанных файлах можно представить в отчете в виде таблицы или как-то иначе. Для каждого файла укажите его название, описание содержимого и в свободной форме укажите информацию, которую Вы смогли получить из данного файла о Вашей сборке (например, число псевдогенов и т.п.)