Kodomo

Пользователь

Учебная страница курса биоинформатики,
год поступления 2024

Домашнее задание к практикуму 7

Срок выполнения без штрафа — утро 25 октября, со штрафом 0,5 балла — утро 1 ноября. Записывайтесь в очередь, номер практикума — 7_home

1. Гистограмма длин белков

(это примерно то же, что задание 3 классной работы)

Можно сначала почитать краткое объяснение того, что такое гистограмма.

  1. В книге CDS создайте новый лист и назовите его prot_lengths
  2. Скопируйте на этот лист с листа cds колонки с именами генов и длинами генов (чтобы выделить колонку, щёлкните мышью по букве вверху колонки; дальше можно взять содержимое в буфер Ctrl+C, щёлкнуть по верхней ячейке пустой колонки и вставить туда из буфера Ctrl+V).
  3. Колонку C озаглавьте "Protein length" и вычислите длину белка, закодированного в каждом гене, по формуле (длина гена)/3 – 1. Минус 1 потому, что в ген входит стоп-кодон, но он не кодирует аминокислотного остатка
    Не удивляйтесь, что некоторые длины белков получились не целые — это т.н. псевдогены, про них в следующий раз. Пока игнорируем это обстоятельство

  4. Создайте ещё один лист prot_lengths_hist, на котором будете строить гистограмму. Вычислите минимальную и максимальную длину белка (используйте функции =MIN(диапазон) и =MAX(диапазон); диапазон пишется через двоеточие, например, C2:C3276). Выберите длину каждого кармана гистограммы такой, чтобы охватить все длины, и при этом чтобы карманов было бы не слишком много, не более нескольких десятков. Напишите в ячейке эту длину. Пусть это число лежит в ячейке D1 и равно 50.

  5. Для вычисления числа длин, попавших в каждый карман, потребуется три колонки. В первой, скажем колонке A, написаны границы карманов, например 40, 90, 140, 190, ..., озаглавьте её "Карманы". Каждое следующее значение равно предыдущему плюс D1. В A2 впишите нижнюю границу самого нижнего кармана (она должна быть меньше минимума, можно 0). Формула в A3: =A2+D$1 (знак $ "фиксирует" то, что после него; в данном случае он нужен, чтобы при распространении формулы D1 не превратилось в D2). Распространите эту формулу вниз так, чтобы покрыть максимальную длину белка.

  6. В соседней колонке сгенерируйте подписи карманов вида "40–90", "90–140" и т.д. Это делается соединением значений ячеек: =A2&"-"&A3 в ячейке B2 и т.д.

  7. В колонке С найдите число длин белков, попадающих в карман между числом в той же строке столбца A и числом в следующей строке столбца A. Это делается функцией, которая в ячейке C2 будет выглядеть так: =COUNTIFS(prot_lengths!C:C;">="&A2; prot_lengths!C:C; "<"&A3) (то есть посчитать число значений в столбце C листа prot_lengths, которые не меньше A2 и меньше A3).
    Не забудьте написать в B1 и C1 подходящие заголовки.

  8. Вставьте гистограмму. Для этого выделите колонки B и С, затем в меню: Вставка → Диаграмма. Не соглашайтесь с вариантом по умолчанию, в списке "Тип диаграммы" надо выбрать "Столбчатая диаграмма" и посмотреть, какие варианты предлагаются.
  9. Подберите наилучшую, по вашему мнению, длину кармана (при этом придётся менять не только значение в D1, но и число карманов)
  10. Постарайтесь добиться, чтобы у диаграммы был содержательный заголовок (не "Кол-во относительно параметра ...", а, например, "Гистограмма длин белков"). Щёлкайте правой клавишей мыши по различным местам диаграммы и ищите в открывающемся меню, рано или поздно найдёте, как изменить заголовок.
  11. (не обязательно, но желательно). Выберите карман, после которого картинка уже мало информативна. Объедините все значения после него в один карман, для этого удалите все карманы после него и поменяйте самую последнюю формулу (на =COUNTIF(prot_lengths!C:C;">=1500"), если 1500 — верхняя граница последнего оставленного кармана) и самую последнюю подпись (на ">=1500"). Вместо 1500 подставьте своё значение!

Замечания

  1. На случай, если у вас настроены русские названия функций: COUNTIFS — это СЧЁТЕСЛИМН, а COUNTIF — СЧЁТЕСЛИ (через Ё, заменить Ё на Е нельзя)
  2. Если у вас региональные настройки — США или Великобритания, то в функциях вместо точки с запятой ";" нужно писать запятую ",", иначе будет выдаваться "Синтаксическая ошибка в формуле".

2. Импорт таблицы особенностей генома

Скопируйте (sftp или scp) с kodomo на свой компьютер таблицу особенностей (~/term1/genome/*table*)

Заведите новую книгу на Google sheets и импортируйте туда эту таблицу. Описание процесса см. в подсказках к классной работе. При этом надо иметь в виду:

На страницу wiki вставьте разумно оформленную ссылку на книгу.

2024/1/pr7 (последним исправлял пользователь sas 2024-10-28 15:44:27)