Учебная страница курса биоинформатики,
год поступления 2013
Практикум 14
Исходные данные для этого практикума – хромосомная таблица вашего прокариотического генома. Если вы не сделали такую таблицу сами, то возьмите её из директории P:\y13\term1\block3\chr_tables_DD.
1. Импортируйте хромосомную таблицу в Excel и сохраните книгу в формате Excel (не текстовом!) под именем <Familiya>_pr14.xlsx в папку credits. Лист назовите "Chromosome table". Строки исходного файла, начинающиеся с #, кроме последней из них, либо не импортируйте, либо после импорта сотрите. Столбцы назовите в соответствии с последней строкой комментария.
2. Добавьте начальный столбец, озаглавьте его "No." и поместите там номера генов по порядку, начиная с 1, 2, и т.д.
3. Вставьте после столбца "orientation" ещё два столбца: "Length" и "Distance"; в первый внесите длину гена, во второй – промежуток между данным геном и cледующим, то и другое – в нуклеотидах. (Не ошибайтесь: прежде чем писать формулу, подумайте, каковы будут длина гена A и его промежуток до следующего гена в следующем экстремальном случае: начало гена A — "1", конец гена A — "2", начало следующего гена — "3").
4. Заведите лист "CDS". На листе "Chromosome table" установите фильтр на столбец "type", оставляющий только CDS. Выделите диапазон (можно и весь лист, но получится хуже) с данными и перенесите его на лист "CDS". (Обратите внимание, что после копирования возникает на месте формул). Добавьте столбец "Protein length", в которой вычислите длину продукта (белка) в аминокислотных остатках (не забудьте, что в длину CDS входит стоп-кодон).
5. Заведите лист "Statistics". На нём в первом столбце напишите названия статистических показателей: "Mean protein length", "Median protein length", "Minimum protein length", "Maximum protein length", "Mean intergenic distance", "Median intergenic distance", "Maximum intergenic distance", "CDS on direct strand", "CDS on reverse strand", "Overlapping genes".
Во второй столбец поместите формулы, вычисляющие соответствующие показатели (по данным с листа CDS). В последних трёх случаях имеется в виду число, соответственно, CDS на прямой цепи, на обратной цепи и CDS, перекрывающихся со следующим геном (т.е. число отрицательных значений "Distance").
5a* дополнительно. Посчитайте среднюю длину и медиану длины отдельно для белков, закодированных на прямой и обратной цепи. Попробуйте интуитивно оценить, является ли разница между числом белков, их средней длиной и медианами на прямой и обратной цепи существенной (не случайной). Напишите про это краткое сочинение и выложите его на свой сайт. Сочинение должно быть понятно постороннему, то есть содержать не только сами результаты, но и название организма, что за данные использовались и т.п.
6. Заведите лист "Empirical distribution". На нём в первом столбце, озаглавленном "L", поместите числа от 0 до максимальной длины белка через 10 (например, если максимальная длина белка – 1487, то числа 0, 10, 20, ... , 1480, 1490). Во второй столбец, озаглавленный "N(L)" вставьте формулу, вычисляющую число белков длины меньшей, чем число в первом столбце той же строки. Наконец, в третий столбец, озаглавленный "F(L)", вставьте формулу, вычисляющую долю белков длины меньше L (то есть отношение N(L) к общему числу белков – функция F(L) называется эмпирической функцией распределения, см. http://en.wikipedia.org/wiki/Empirical_distribution_function ). Постройте на том же листе график F(L) (внимание: будет оцениваться качество графика, то есть, например, удобный для восприятия масштаб по осям).
Указание. Для подсчёта в диапазоне числа ячеек, удовлетворяющих некоторому условию, используется функция COUNTIF (СЧЁТЕСЛИ в русифицированном варианте). Примеры:
=COUNTIF(A:A;0)
считает число ячеек в столбце A, содержащих число 0.
=COUNTIF(B2:B10;"<"&D1)
считает число ячеек в диапазоне B2:B10, в которых стоит число, меньшее, чем число в ячейке D1.
7. Заведите лист "Histogram", на котором будем строить гистограмму длин белков. Гистограмма строится по набору интервалов и представляет собой функцию, которая каждому интервалу сопоставляет число значений некоторой выборки, попавших в этот интервал.
Постарайтесь подобрать интервалы так, чтобы гистограмма наиболее наглядно отражала распределение длин кодирующих участков.
В столбец "Intervals" внесите границы интервалов. В столбец "Histogram" внесите формулы, вычисляющие соответствующие числа (подсказка: она может иметь вид "=COUNTIF(...)–COUNTIF(...)"). Постройте (на том же листе) столбчатую диаграмму, изображающую гистограмму (часто именно такая диаграмма, а не числовой материал для неё, называется гистограммой).
7a* дополнительно. Постройте "двойную гистограмму" – на одной диаграмме распределения длин белков, закодированных на прямой и обратной цепи (двумя цветами). Выложите её на сайт, снабдив понятным описанием (внимание: страницы с дополнительными заданиями, написанные сумбурно и непонятно, а тем более без описания вообще, оцениваться дополнительными баллами не будут!).