Kodomo

Пользователь

Учебная страница курса биоинформатики,
год поступления 2021

Обязательные задания

Задание: Выбрать сборку генома эукариотического организма, подходящую по некоторым параметрам качества, охарактеризовать ее по предложенному плану и скачать файлы.

Результат: Страница на Вашем сайте с информацией о выбранной сборке со ссылкой на нее со страницы соответствующего семестра. Срок сдачи: до 22:59 25-ого октября 2022 г.. Записывайтесь в очередь на проверку! Обратите внимание, что оцениваться будет помимо фактических данных связность представленного отчета (он должен быть понятен читателю, не знакомому с текстом заданий) и аккуратность оформления (например, наличие подписей к рисункам и таблицам, ссылок на источники и т.п.).

1. Выберите качественную сборку генома эукариотического организма

2. Выпишите в виде таблицы некоторые характеристики выбранной сборки

Создайте таблицу со следующей информацией о выбранной сборке:

  1. Идентификатор GenBank;

  2. Идентификатор RefSeq (при наличии);

  3. Общий размер генома;
  4. Параметры N50 и L50 для всех элементов (контигов, скэффолдов) — с обязательным пояснением, что они означают.

3. Скачайте сборку генома, аннотацию и предсказанные белковые последовательности выбранного организма

В зависимости от того, в какой базе данных есть аннотация генов, скачайте информацию о Вашей сборке из GenBank или RefSeq (через NCBI FTP, или через систему поиска на сайте). Вам понадобятся как минимимум три файла:

  1. Нуклеотидные последовательности генома (в формате FASTA);
  2. Последовательности белков (в формате FASTA);
  3. Последовательности генома с аннотацией (GBFF).

Дополнительные задания

Выполнение данных заданий для получения зачета за практикум не обязательно.

4. Скачайте все остальные файлы, которые представлены для Вашей сборки

Воспользуйтесь NCBI FTP для поиска остальных файлов, которые доступны для выбранной сборке. Информацию о всех скачанных файлах можно представить в отчете в виде таблицы или как-то иначе. Для каждого файла укажите его название, описание содержимого и в свободной форме укажите информацию, которую Вы смогли получить из данного файла о Вашей сборке (например, число псевдогенов и т.п.)

5. Постройте диаграмму длин фрагментов генома

Используйте файл с нуклеотидными последовательностями генома или другую информацию из базы данных. Любым доступным способом (например, скриптом на Python) посчитайте длины каждого фрагмента генома, отсортируйте эти длины по убыванию и нарисуйте график, показывающий убывание длины. Отметьте на графике точку, отвечающую контигу, на который указывают величины N50 и L50. В отчете приведите график и опишите любые другие свои наблюдения и соображения в связи с ним.

6. Есть ли в выбранной сборке геномы органелл?

Найдите информацию о том, есть ли в выбранной сборке геномы митохондрий и пластид. В отчете объясните, как Вы искали эту информацию. Если геномы митохондрий/пластид обнаружены, приведите отдельно краткую характеристику генома каждой из найденных органелл, заполнив таблицу со следующими колонками:

  1. Идентификатор записи (ACCESSION);
  2. Тип органеллы;
  3. Число кодирующих последовательностей (CDS);
  4. Число генов рРНК;
  5. Число генов тРНК;
  6. Число псевдогенов.

2021/3/pr7 (последним исправлял пользователь sas 2022-10-20 14:59:17)