Kodomo

Пользователь

Учебная страница курса биоинформатики,
год поступления 2024

Цель задания: Выбрать сборку генома эукариотического организма, подходящую по некоторым параметрам качества, охарактеризовать ее по предложенному плану и скачать файлы, которые потребуются для работы на следующем занятии. Познакомиться с системами поиска на сайтах NCBI и ENA.

Результат: По заданиям этого и следующего практикума вы оформляете страницу на Вашем сайте для сдачи ее на коллоквиуме 10 ноября. Обязательно наличие таблиц и рисунков с подписями, полностью объясняющими читателю, не знакомому с текстом заданий, что в таблице и на рисунке показано. В отчете может быть также любой другой сопроводительный текст, за качество которого Вы ручаетесь (он может сыграть как в плюс, так и в минус на коллоквиуме, в зависимости от его качества и степени понимания написанного Вами).

Практикум №7. Обязательные задания

1. Выберите качественную сборку генома эукариотического организма

2. Выпишите в виде таблицы некоторые характеристики выбранной сборки

На Вашей странице заполните таблицу со следующей информацией о выбранной сборке:

  1. Идентификатор GenBank;

  2. Идентификатор RefSeq (при наличии);

  3. Уровень сборки генома;
  4. Общий размер генома (п.н.);
  5. Число фрагментов генома в сборке;
  6. Параметры N50 и L50 для всех элементов (контигов, скэффолдов) — с обязательным пояснением, что они означают (в самой таблице или же в подписи к ней).

3. Скачайте сборку генома, аннотацию и предсказанные белковые последовательности выбранного организма

В зависимости от того, в какой базе данных есть аннотация генов, скачайте информацию о Вашей сборке из GenBank или RefSeq (через NCBI FTP, или через систему поиска на сайте). Вам понадобятся как минимимум три файла:

  1. Нуклеотидные последовательности генома (в формате FASTA) – если после скачивания у Вас будет превышена квота, то скачайте на домашний компьютер;

  2. Последовательности белков (в формате FASTA);
  3. Последовательности генома с аннотацией (GBFF) – если после скачивания у Вас будет превышена квота, то скачайте на домашний компьютер.

4. Знакомство с поисковыми системами ENA и NCBI

  1. Выберите какое-нибудь популярное название белка (гемоглобин, трипсин, инсулин, пропердин, ...)
  2. Пользуясь Advanced Search на сайте NCBI, выясните и напишите в отчёте:
    • сколько всего записей нуклеотидных баз данных посвящено генам и мРНК белков с таким словом в названии?
    • сколько из них — из GenBank, а сколько — из RefSeq?

    • сколько их них (отдельно для GenBank и RefSeq, мРНК и участков генома) — записи, описывающие последовательности человека?

    • по возможности выясните, все ли эти записи действительно содержат последовательности, кодирующие белки с соответствующей функцией.
  3. Пользуясь Advanced Search на сайте ENA, выясните и напишите в отчёте, сколько в ENA записей, описывающих: (а) мРНК и (б) гены белков человека, чьё название содержит выбранное слово
  4. (*) Проделайте всё то же на сайте DDBJ. Опишите свои впечатления от трёх поисковых систем. Какой из них вы скорее воспользуетесь в реальной ситуации?

Какие вопросы, вероятно, будут спрашивать на коллоквиуме по этому практикуму:

Дополнительные задания

Выполнение данных заданий для получения зачета за практикум не обязательно, но добавит дополнительных баллов.

5. Есть ли в выбранной сборке геномы органелл?

Найдите информацию о том, есть ли в выбранной сборке геномы митохондрий и пластид. На странице объясните, как Вы искали эту информацию. Если геномы митохондрий/пластид обнаружены, приведите отдельно краткую характеристику генома каждой из найденных органелл, заполнив таблицу со следующими колонками:

  1. Идентификатор записи (ACCESSION);
  2. Тип органеллы;
  3. Число кодирующих последовательностей (CDS);
  4. Число генов рРНК;
  5. Число генов тРНК;
  6. Число псевдогенов.

6. Постройте диаграмму длин фрагментов генома

Используйте файл с нуклеотидными последовательностями генома или другую информацию из базы данных. Любым доступным способом (например, скриптом на Python) посчитайте длины каждого фрагмента генома, отсортируйте эти длины по убыванию и нарисуйте график, показывающий убывание длины. Отметьте на графике точку, отвечающую контигу, на который указывают величины N50 и L50. В отчете приведите график и опишите любые другие свои наблюдения и соображения в связи с ним.

7. Скачайте все остальные файлы, которые представлены для Вашей сборки

Воспользуйтесь NCBI FTP для поиска остальных файлов, которые доступны для выбранной сборки. Информацию о всех скачанных файлах можно представить в отчете в виде таблицы или как-то иначе. Для каждого файла укажите его название, описание содержимого и в свободной форме укажите информацию, которую Вы смогли получить из данного файла о Вашей сборке (например, число псевдогенов и т.п.)

Скачивайте на домашний компьютер, чтобы не выбрать раньше времени квоту на kodomo

2024/3/pr7 (последним исправлял пользователь udavdasha 2025-10-14 07:43:52)