Учебная страница курса биоинформатики,
год поступления 2023
Задания на дом
Задания 1 и 3 выполняются в Google sheets c хромосомной таблицей xxxxxxx_genome. Для каждого нового задания следует создать новую страницу с понятным названием, ниже в начале каждого пункта в скобках приведены рекомендуемые названия. Не возбраняется создавать "технические" страницы для удобства вычислений, давайте таким страницам названия, начинающиеся с "tmp", их содержимое проверяться не будет.
(protein_length-hist) Построить гистограмму числа аминокислотных остатков в белках вашей бактерии или археи. Без потери баллов должно быть выполнено как работа в классе.
(имя документа: xxxxxxx-minireview, вместо xxxxxxx подставьте свою фамилию) Создайте Google Doc (текстовый документ) для мини-обзора о вашей бактерии или археи, её генома и протеома. Документ сделайте доступным для комментирования по ссылке (то есть всем, у кого есть ссылка) и поставьте ссылку на него на свою wiki-страницу. В документе, минимально, необходимо написать:
- Название обзора (потом может быть скорректировано)
- Автора (имя и фамилия, соавторство не допускается)
Название первого раздела ВВЕДЕНИЕ (INTRODUCTION если пишете обзор на английском)
(*) Во "Введении" — фразу о таксономической принадлежности бактерии или археи: вид, род, семейство, класс (можно и полную таксономию привести)
- Одно из заданий по темам мини-обзора, перечисленных ниже.
Задания для выбора студентом, по темам мини-обзора
Перенумерованные задания 1–7 привязаны к темам, перечисленным в презентации на слайде 6.
Это не значит, что в рамках темы можно выполнять только это задание, наоборот, самостоятельность и творчество приветствуются! Тем не менее, включение в мини-обзор результатов сформулированных ниже заданий засчитывается (без премиальных баллов) в зачёте по мини-обзору.
Придумать другой вопрос в рамках темы или не относящийся ни к одной из перечисленных тем и получить ответ на него приветствуется и оценивается дополнительными баллами.
Выполнение хотя бы двух (включая обязательное) из сформулированные ниже заданий необходимо для зачёта по практикуму 8; другие задания — на выбор студента.
- Обязательное, см выше
(per-replicones) Составьте таблицу числа генов белков и генов разных типов РНК для каждого репликона (столбец chromosome) из выбранного генома. Для геномов, состоящих из одного репликона, таблица будет содержать одну строку чисел.
(inter_cds_intervals-hist) Постройте гистограмму расстояний между последовательными кодирующими последовательностями (CDS) на плюс-цепи самой большой хромосомы. В этом задании просто игнорируйте все CDS на минус-цепи и гены РНК, то есть за расстояние считайте число пар нуклеотидов между последним нуклеотидом CDS на плюс-цепи и первым нуклеотидом следующего CDS на той же цепи (даже если между ними есть CDS на минус-цепи). Для мини-обзора есть простор для расширения и нетривиального анализа.
(intersecting_cds-hist) Выберите кодирующие последовательности (CDS) на плюс-цепи самой большой хромосомы такие, которые пересекаются со следующей CDS на плюс-цепи (т.е. cds_stop ≥ next_cds_start) и вычислите intrsect_len (число нуклеотидов в пересечении). Постройте гистограмму длин пересечений. Для мини-обзора есть простор для расширения и нетривиального анализа (возможно получение маленького нового для науки результата).
(operones) Технически не просто в ЭТ. Предскажите не менее трёх оперонов в геноме выбранной бактерии или археи.
(start_codons) Средствами bash по файлу "*cds_from_genomic.fna" с импортом результата в ЭТ. Определите все старт кодоны (первые кодоны) в кодирующих последовательностях (CDS) и вычислите, сколько раз встречается каждый старт кодон
(stop_codons) См. предыдущий пункт. Определите все стоп кодоны в кодирующих последовательностях (CDS) и вычислите, сколько раз встречается каждый стоп кодон
Темы 8–11 из презентации — не для электронных таблиц
Ещё варианты заданий
(percents_of_length) Создайте таблицу процентов длины, занятой генами белков, генами РНК, псевдогенами и межгенными промежутками, для каждого репликона.
(neirbouring_cds) Создайте таблицу 3✕3, первая строка — с заголовками столбцов, первый столбец — с названиями строк, а в четырёх ячейках — числа:
- CDS на плюс цепи, следующих непосредственно за CDS тоже на плюс-цепи
- CDS на плюс цепи, следующих непосредственно за CDS на минус-цепи
- CDS на минус цепи, следующих непосредственно за CDS на плюс-цепи
CDS на минус цепи, следующих непосредственно за CDS тоже на минус-цепи
(в простейшем варианте можно просто проанализировать столбец "strand" для CDS, с учётом хромосомы; более правильный и сложный вариант предусматривает проверку того, что между CDS не вклинились гены РНК или псевдогены)
Если фиг с ним с мини-обзором, то задание 3 можно заменить заданием 3 за прошлый год задание 3 за прошлый год. Ссылка на подсказки там же.