Учебная страница курса биоинформатики,
год поступления 2019
Как сделать гистограмму
Лингвистическое предисловие
Как многие их вас уже знают, имеется печальный факт: в русифицированном Excel слово "Вставить" означает две существенно разные операции: Paste и Insert...
Аналогично, словом "гистограмма" обозначаются две сущности: bar plot и histogram.
Мы впредь гистограммой будем называть только histogram, а bar plot будем именовать "столбчатой диаграммой".
Что такое гистограмма?
Пусть имеется некоторый (большой) массив чисел, заключённых между X (минимум или меньше минимума этих чисел) и Y (больше максимума). Разобьём полуинтервал [X, Y) на некоторое (сравнительно небольшое) количество полуинтервалов: [X, A1), [A1, A2), ..., [Ak, Y) и для каждого полуинтервала посчитаем количество чисел нашего большого массива, попавших в этот полуинтервал. Эти количества и есть гистограмма.
Сами полуинтервалы называются карманами гистограммы. Обычно карманы расположены равномерно, то есть Ai+1 = Ai + h. Такое h, то есть длина кармана, называется шагом гистограммы.
Гистограмма и её графическое изображение в виде столбчатой диаграммы помогает визуализировать распределение величин массива.
Выбор шага гистограммы — сложная творческая задача. Если шаг слишком большой, гистограмма недостаточно полно отражает свойства распределения. Если шаг слишком маленький, гистограмма может оказаться перегруженной несущественной информацией, а главное — сами количества в карманах могут стать слишком маленькими и от этого малоинформативными.
Иногда вместо равномерных карманов выбирают "равномерные в логарифмической шкале" карманы, то есть, например, границами карманов могут быть числа 50, 100, 200, 400, 800 (геометрическая прогрессия вместо арифметической). Такая гистограмма иногда бывает более информативна, чем обычная (с равными длинами карманов).
Наконец, если распределение имеет длинный "хвост" (сравнительно немного нетипично больших значений), последний карман гистограммы делают "сборным", например, при минимальном значении 0 и максимальном 200 или 300 границы карманов могут быть: 0, 10, 20, 30, 40, 50, 60, 70, 80 и последний карман ">80". Такое имеет смысл, если карманы [80,90), [90,100) и т.д. включают в себя максимум одно-два, а многие и ни одного значения, тогда нет смысла растягивать гистограмму в ширину, а лучше сделать "сборный" карман для всех аномально больших значений.
Как сделать гистограмму в электронных таблицах
Многие электронные таблицы включают полуавтоматические средства создания гистограмм. Но есть универсальный способ, который если и требует больше усилий, чем эти средства, то совсем ненамного. Это использование функции COUNTIFS (СЧЁТЕСЛИМН).
Как это делать — см. в примере. Формулы — в ячейках столбца B листа Histogram. Обратите внимание на расстановку кавычек и знаков & при ссылке на границы карманов.
Ещё один пример гистограммы длин белков [ пример 2 ] В этом примере в Google Sheets (1)колонка protein length скопирована на новый лист. (2) Вычислена гистограмма. Формулы в первой строке как примечания к названиям колонок. В колонках B,C и D формулы из примечаний распространяются вниз до достижения максимальной длины белка. (2) Столбчатая гистограмма получается выделением двух колонок C:C и D:D, далее в меню insert => Chart и выбором из Chart type нужного вида диаграммы. В примере 2 формула оставлены, поэтому при изменении Step происходит автоматический пересчёт гистограммы и её столбикового представления. Это удобно для подбора подходящего размера карманов гистограммы. У себя полезно подобрав размер кармана, убить формулы в ячейках: выделить лист, CTRL С => меню Edit=> Paste special=> Values only.Формулы в примечаниях остаются на всякий случай. ААл
Как сделать хорошую столбчатую диаграмму по готовым числовым данным
Описать (и даже запомнить) это невозможно, тем более что в разных электронных таблицах это организовано по-разному. Вставьте диаграмму как-нибудь, а потом тыкайте в разные пункты разных меню (многие из них открываются при щелчке правой кнопкой мыши в разные места диаграммы), выбирайте, пробуйте, рано или поздно получится. Потом с опытом это будет получаться быстрее.
Когда будете вставлять готовую картинку в отчёт, то я (С.А.С.) рекомендую сначала "пропустить" её через какой-нибудь графический редактор (хотя бы Paint), чтобы это была именно картинка, а не "объект MS-Excel" со всяким уже не нужным внутренним содержимым.