Kodomo

Пользователь

Учебная страница курса биоинформатики,
год поступления 2021

Задания практикума 8

Срок без потери баллов: 28 октября (включительно).

Создайте в Google sheets книгу, которую назовите "Практикум 8" или "Practice 8". Сделайте книгу доступной по ссылке. После выполнения заданий заведите на wiki страницу pr8 и туда поместите краткое описание результатов работы (в частности, какие именно упражнения сделаны из п. 3, как называются листы и прочую справочную информацию) и гиперссылку на книгу.

1. Создайте гистограмму длин белок-кодирующих участков генома

Что такое гистограмма. См. также в Википедии.

На первый лист новой книги скопируйте следующие столбцы из листа CDS книги, которую вы создали при выполнении заданий практикума 7: ID, chromosome, start, end, strand, product_accession, name, product_length. Назовите лист "CDS". (Совет: проще сначала скопировать всё содержимое листа, а потом удалить ненужные столбцы. Чтобы удалить столбец, щёлкните по его названию, т.е. букве на сером фоне над содержимым, правой кнопкой мыши и выберите соответствующий пункт в меню).

Выберите шаг гистограммы. Он должен быть не слишком мелким (чтобы не было много карманов, в которые попали бы менее 20–25 значений), но и не слишком крупным (чтобы были видны детали распределения длин). Заведите новый лист, назовите его "Histogram". Первый столбец назовите "Length" и заполните его арифметической прогрессией с шагом гистограммы. Второй столбец назовите "Count" и заполните его количествами значений в "product_length", попадающими в соответствующий карман. В качестве последнего кармана имеет смысл использовать, например, интервал 1500–1000000 (смысл этого — "больше 1500", нижнюю границу последнего кармана следует подобрать так, чтобы в него попало не более 10 значений).

См. подсказки

2. Изобразите созданную гистограмму в виде столбчатой диаграммы

См. подсказки

3. Выполните три любых упражнения из следующего списка

Выполняйте на отдельных листах книги, названия листов должны намекать на содержимое.

График функции, зависящей от параметров

Постройте график функции Acos(2πnx + φ) на отрезке [0;10] по точкам с интервалом 0,01 между последовательными значениями аргумента. Параметры A, n, φ должны лежать в отдельных ячейках так, чтобы их было удобно менять. n — целое, A и φ — любые действительные. Убедитесь, что график меняется ожидаемым образом при изменении параметров.

Вычисление приближённого значения интеграла

Даны два столбца, озаглавленные X и Y, оба включают числа, причём значения X упорядочены по возрастанию (таким образом имеется так называемая затабулированная функция). Например, можно взять аргументы и значения из предыдущего упражнения.

Написать формулы, позволяющие посчитать приближённое значение интеграла (по отрезку от наименьшего до наибольшего значений X) от этой функции по формуле трапеций. Ячейку, в которой будет получаться значение интеграла, выделите жирным шрифтом и напишите к ней примечание.

Описательная статистика

Рассчитайте среднюю длину, стандартное отклонение (среднее квадратичное отклонений данных от среднего значения), медиану, минимальное и максимальное значения длин продуктов генов (т.е., закодированных в геноме белков), из столбца product_length

Оценка степени случайности различия двух чисел

Посчитайте числа белков, закодированных на двух цепях ДНК в геноме вашей бактерии/археи (в самой большой хромосоме, если хромосом несколько). Посчитайте вероятность получить такое же или большее различие между этими числами при условии заданного общего числа белков.

Замечание. Для мини-обзора генома может быть полезно, помимо этого упражнения как есть, посчитать те же характеристики не по хромосоме целиком, а по "половинкам" каждой хромосомы. Иногда на всей хромосоме достоверного эффекта может не быть, но при этом он может появиться (как разнонаправленный) на половинах.

VLOOKUP

Первый столбец листа озаглавьте Accession и поместите туда 10–20 произвольно выбранных значений из столбца product_accession листа CDS. Второй столбец озаглавьте Name и во второй сверху его ячейке напишите формулу, которая по значению в первой ячейке той же строки определяет name, обращаясь к листу CDS. Распространите формулу на все строки, в которые внесён product_accession. Внимание: обязательно проверить корректность формулы:

См. подсказки

2021/1/pr8 (последним исправлял пользователь sas 2021-10-24 07:29:26)