Учебная страница курса биоинформатики,
год поступления 2022
Обязательные задания
Задание: Выбрать сборку генома эукариотического организма, подходящую по некоторым параметрам качества, охарактеризовать ее по предложенному плану и скачать файлы.
Результат: Страница на Вашем сайте с информацией о выбранной сборке со ссылкой на нее со страницы соответствующего семестра. Срок сдачи: до 22:59 24-ого октября 2023 г.. Срок сдачи с небольшой потерей баллов: + 1 неделя. Записывайтесь в очередь на проверку! Обратите внимание, что оцениваться будет помимо фактических данных связность представленного отчета (он должен быть понятен читателю, не знакомому с текстом заданий) и аккуратность оформления (например, наличие подписей к рисункам и таблицам, ссылок на источники и т.п.).
1. Выберите качественную сборку генома эукариотического организма
- Выберите любой эукариотический организм, который Вам нравится. Выпишите себе его латинское название и название на английском.
Через систему поиска на сайте NCBI найдите сборки генома выбранного организма. Если не находится ничего по полному названию (род, вид, разновидность и т.п.), попробуйте поискать только по роду. Также искать можно по более высоким таксономическим единицам (семейство, порядок и т.п.). Нужно найти сборку эукариота, которая будет отвечать следующим требованиям:
Иметь аннотированные гены (хотя бы в одной версии - RefSeq или GenBank)
Иметь качество сборки на уровне Chromosome и выше (то, что означает каждое качество сборки, указано в файле README_assembly_summary.txt на NCBI FTP).
- Если найдено несколько сборок по Вашему запросу, выберите ту, которая отмечена как референсная или репрезентативная (см. в том же файле описание того, что это означает).
Если ни одной сборки выбранного организма с данными параметрами не находится, можно сделать одно из двух: 1) выбрать новый организм или 2) если Вам нравится именно этот организм, выбрать наилучшую из найденных сборок (описав при этом, по каким параметрам Вы это сделали) — но в этом случае с Вас объяснение, откуда такая любовь к этому организму
На Вашей странице опишите:
- Какого эукариота Вы искали, несколько слов о нем (можно с картинкой, нельзя — не пропущенную через себя копипасту и/или продукцию ботов); особенно постарайтесь найти информацию о том, сколько у него хромосом, чтобы можно было сравнить эту информацию с тем, сколько фрагментов генома обнаружено в сборке.
- Каким был Ваш поисковый запрос, сколько сборок было найдено по нему;
- Какой уровень сборки у выбранной сборки, что это означает;
- Является ли выбранная сборка референсной или репрезентативной, что это означает.
2. Выпишите в виде таблицы некоторые характеристики выбранной сборки
Создайте таблицу со следующей информацией о выбранной сборке:
Идентификатор GenBank;
Идентификатор RefSeq (при наличии);
- Общий размер генома;
Параметры N50 и L50 для всех элементов (контигов, скэффолдов) — с обязательным пояснением, что они означают.
3. Скачайте сборку генома, аннотацию и предсказанные белковые последовательности выбранного организма
В зависимости от того, в какой базе данных есть аннотация генов, скачайте информацию о Вашей сборке из GenBank или RefSeq (через NCBI FTP, или через систему поиска на сайте). Вам понадобятся как минимимум три файла:
- Нуклеотидные последовательности генома (в формате FASTA);
- Последовательности белков (в формате FASTA);
- Последовательности генома с аннотацией (GBFF).
Дополнительные задания
Выполнение данных заданий для получения зачета за практикум не обязательно.
4. Скачайте все остальные файлы, которые представлены для Вашей сборки
Воспользуйтесь NCBI FTP для поиска остальных файлов, которые доступны для выбранной сборке. Информацию о всех скачанных файлах можно представить в отчете в виде таблицы или как-то иначе. Для каждого файла укажите его название, описание содержимого и в свободной форме укажите информацию, которую Вы смогли получить из данного файла о Вашей сборке (например, число псевдогенов и т.п.)
5. Постройте диаграмму длин фрагментов генома
Используйте файл с нуклеотидными последовательностями генома или другую информацию из базы данных. Любым доступным способом (например, скриптом на Python) посчитайте длины каждого фрагмента генома, отсортируйте эти длины по убыванию и нарисуйте график, показывающий убывание длины. Отметьте на графике точку, отвечающую контигу, на который указывают величины N50 и L50. В отчете приведите график и опишите любые другие свои наблюдения и соображения в связи с ним.
6. Есть ли в выбранной сборке геномы органелл?
Найдите информацию о том, есть ли в выбранной сборке геномы митохондрий и пластид. В отчете объясните, как Вы искали эту информацию. Если геномы митохондрий/пластид обнаружены, приведите отдельно краткую характеристику генома каждой из найденных органелл, заполнив таблицу со следующими колонками:
- Идентификатор записи (ACCESSION);
- Тип органеллы;
- Число кодирующих последовательностей (CDS);
- Число генов рРНК;
- Число генов тРНК;
- Число псевдогенов.