Kodomo

Пользователь

Учебная страница курса биоинформатики,
год поступления 2023

Задания на дом

Задания 1 и 3 выполняются в Google sheets c хромосомной таблицей xxxxxxx_genome. Для каждого нового задания следует создать новую страницу с понятным названием, ниже в начале каждого пункта в скобках приведены рекомендуемые названия. Не возбраняется создавать "технические" страницы для удобства вычислений, давайте таким страницам названия, начинающиеся с "tmp", их содержимое проверяться не будет.

  1. (protein_length-hist) Построить гистограмму числа аминокислотных остатков в белках вашей бактерии или археи. Без потери баллов должно быть выполнено как работа в классе.

  2. (имя документа: xxxxxxx-minireview, вместо xxxxxxx подставьте свою фамилию) Создайте Google Doc (текстовый документ) для мини-обзора о вашей бактерии или археи, её генома и протеома. Документ сделайте доступным для комментирования по ссылке (то есть всем, у кого есть ссылка) и поставьте ссылку на него на свою wiki-страницу. В документе, минимально, необходимо написать:

    1. Название обзора (потом может быть скорректировано)
    2. Автора (имя и фамилия, соавторство не допускается)
    3. Название первого раздела ВВЕДЕНИЕ (INTRODUCTION если пишете обзор на английском)

    4. (*) Во "Введении" — фразу о таксономической принадлежности бактерии или археи: вид, род, семейство, класс (можно и полную таксономию привести)

  3. Одно из заданий по темам мини-обзора, перечисленных ниже.

Задания для выбора студентом, по темам мини-обзора

Перенумерованные задания 1–7 привязаны к темам, перечисленным в презентации на слайде 6.
Это не значит, что в рамках темы можно выполнять только это задание, наоборот, самостоятельность и творчество приветствуются! Тем не менее, включение в мини-обзор результатов сформулированных ниже заданий засчитывается (без премиальных баллов) в зачёте по мини-обзору.

Придумать другой вопрос в рамках темы или не относящийся ни к одной из перечисленных тем и получить ответ на него приветствуется и оценивается дополнительными баллами.

Выполнение хотя бы двух (включая обязательное) из сформулированные ниже заданий необходимо для зачёта по практикуму 8; другие задания — на выбор студента.

  1. Обязательное, см выше
  2. (per-replicones) Составьте таблицу числа генов белков и генов разных типов РНК для каждого репликона (столбец chromosome) из выбранного генома. Для геномов, состоящих из одного репликона, таблица будет содержать одну строку чисел.

  3. (inter_cds_intervals-hist) Постройте гистограмму расстояний между последовательными кодирующими последовательностями (CDS) на плюс-цепи самой большой хромосомы. В этом задании просто игнорируйте все CDS на минус-цепи и гены РНК, то есть за расстояние считайте число пар нуклеотидов между последним нуклеотидом CDS на плюс-цепи и первым нуклеотидом следующего CDS на той же цепи (даже если между ними есть CDS на минус-цепи). Для мини-обзора есть простор для расширения и нетривиального анализа.

  4. (intersecting_cds-hist) Выберите кодирующие последовательности (CDS) на плюс-цепи самой большой хромосомы такие, которые пересекаются со следующей CDS на плюс-цепи (т.е. cds_stop ≥ next_cds_start) и вычислите intrsect_len (число нуклеотидов в пересечении). Постройте гистограмму длин пересечений. Для мини-обзора есть простор для расширения и нетривиального анализа (возможно получение маленького нового для науки результата).

  5. (operones) Технически не просто в ЭТ. Предскажите не менее трёх оперонов в геноме выбранной бактерии или археи.

  6. (start_codons) Средствами bash по файлу "*cds_from_genomic.fna" с импортом результата в ЭТ. Определите все старт кодоны (первые кодоны) в кодирующих последовательностях (CDS) и вычислите, сколько раз встречается каждый старт кодон

  7. (stop_codons) См. предыдущий пункт. Определите все стоп кодоны в кодирующих последовательностях (CDS) и вычислите, сколько раз встречается каждый стоп кодон

Темы 8–11 из презентации — не для электронных таблиц

Ещё варианты заданий

  1. (percents_of_length) Создайте таблицу процентов длины, занятой генами белков, генами РНК, псевдогенами и межгенными промежутками, для каждого репликона.

  2. (neirbouring_cds) Создайте таблицу 3✕3, первая строка — с заголовками столбцов, первый столбец — с названиями строк, а в четырёх ячейках — числа:

    • CDS на плюс цепи, следующих непосредственно за CDS тоже на плюс-цепи
    • CDS на плюс цепи, следующих непосредственно за CDS на минус-цепи
    • CDS на минус цепи, следующих непосредственно за CDS на плюс-цепи
    • CDS на минус цепи, следующих непосредственно за CDS тоже на минус-цепи

(в простейшем варианте можно просто проанализировать столбец "strand" для CDS, с учётом хромосомы; более правильный и сложный вариант предусматривает проверку того, что между CDS не вклинились гены РНК или псевдогены)

2023/1/pr8 (последним исправлял пользователь sas 2023-12-21 15:54:17)