Учебная страница курса биоинформатики,
год поступления 2024
Домашнее задание к практикуму 7
Срок выполнения без штрафа — утро 25 октября, со штрафом 0,5 балла — утро 1 ноября. Записывайтесь в очередь, номер практикума — 7_home
1. Гистограмма длин белков
(это примерно то же, что задание 3 классной работы)
Можно сначала почитать краткое объяснение того, что такое гистограмма.
- В книге CDS создайте новый лист и назовите его prot_lengths
- Скопируйте на этот лист с листа cds колонки с именами генов и длинами генов (чтобы выделить колонку, щёлкните мышью по букве вверху колонки; дальше можно взять содержимое в буфер Ctrl+C, щёлкнуть по верхней ячейке пустой колонки и вставить туда из буфера Ctrl+V).
Колонку C озаглавьте "Protein length" и вычислите длину белка, закодированного в каждом гене, по формуле (длина гена)/3 – 1. Минус 1 потому, что в ген входит стоп-кодон, но он не кодирует аминокислотного остатка
Не удивляйтесь, что некоторые длины белков получились не целые — это т.н. псевдогены, про них в следующий раз. Пока игнорируем это обстоятельствоСоздайте ещё один лист prot_lengths_hist, на котором будете строить гистограмму. Вычислите минимальную и максимальную длину белка (используйте функции =MIN(диапазон) и =MAX(диапазон); диапазон пишется через двоеточие, например, C2:C3276). Выберите длину каждого кармана гистограммы такой, чтобы охватить все длины, и при этом чтобы карманов было бы не слишком много, не более нескольких десятков. Напишите в ячейке эту длину. Пусть это число лежит в ячейке D1 и равно 50.
Для вычисления числа длин, попавших в каждый карман, потребуется три колонки. В первой, скажем колонке A, написаны границы карманов, например 40, 90, 140, 190, ..., озаглавьте её "Карманы". Каждое следующее значение равно предыдущему плюс D1. В A2 впишите нижнюю границу самого нижнего кармана (она должна быть меньше минимума, можно 0). Формула в A3: =A2+D$1 (знак $ "фиксирует" то, что после него; в данном случае он нужен, чтобы при распространении формулы D1 не превратилось в D2). Распространите эту формулу вниз так, чтобы покрыть максимальную длину белка.
В соседней колонке сгенерируйте подписи карманов вида "40–90", "90–140" и т.д. Это делается соединением значений ячеек: =A2&"-"&A3 в ячейке B2 и т.д.
В колонке С найдите число длин белков, попадающих в карман между числом в той же строке столбца A и числом в следующей строке столбца A. Это делается функцией, которая в ячейке C2 будет выглядеть так: =COUNTIFS(prot_lengths!C:C;">="&A2; prot_lengths!C:C; "<"&A3) (то есть посчитать число значений в столбце C листа prot_lengths, которые не меньше A2 и меньше A3).
Не забудьте написать в B1 и C1 подходящие заголовки.- Вставьте гистограмму. Для этого выделите колонки B и С, затем в меню: Вставка → Диаграмма. Не соглашайтесь с вариантом по умолчанию, в списке "Тип диаграммы" надо выбрать "Столбчатая диаграмма" и посмотреть, какие варианты предлагаются.
- Подберите наилучшую, по вашему мнению, длину кармана (при этом придётся менять не только значение в D1, но и число карманов)
- Постарайтесь добиться, чтобы у диаграммы был содержательный заголовок (не "Кол-во относительно параметра ...", а, например, "Гистограмма длин белков"). Щёлкайте правой клавишей мыши по различным местам диаграммы и ищите в открывающемся меню, рано или поздно найдёте, как изменить заголовок.
(не обязательно, но желательно). Выберите карман, после которого картинка уже мало информативна. Объедините все значения после него в один карман, для этого удалите все карманы после него и поменяйте самую последнюю формулу (на =COUNTIF(prot_lengths!C:C;">=1500"), если 1500 — верхняя граница последнего оставленного кармана) и самую последнюю подпись (на ">=1500"). Вместо 1500 подставьте своё значение!
Замечания
- На случай, если у вас настроены русские названия функций: COUNTIFS — это СЧЁТЕСЛИМН, а COUNTIF — СЧЁТЕСЛИ (через Ё, заменить Ё на Е нельзя)
- Если у вас региональные настройки — США или Великобритания, то в функциях вместо точки с запятой ";" нужно писать запятую ",", иначе будет выдаваться "Синтаксическая ошибка в формуле".
2. Импорт таблицы особенностей генома
Скопируйте (sftp или scp) с kodomo на свой компьютер таблицу особенностей (~/term1/genome/*table*)
Заведите новую книгу на Google sheets и импортируйте туда эту таблицу. Описание процесса см. в подсказках к классной работе. При этом надо иметь в виду:
- разделитель полей в этом файле — табулятор
- импортируйте всё как текст, потом выясните, какие столбцы содержат числа, и поменяйте формат в этих столбцах. Там, где числа по смыслу целые (например, длины особенностей), они должны отображаться без дробной части из нулей.
таблицу лучше всего назвать либо "Feature table", либо "Genomic features of название бактерии"
На страницу wiki вставьте разумно оформленную ссылку на книгу.