Учебная страница курса биоинформатики,
год поступления 2012
Подсказки к практикуму 14
Подсчёт остатков разного типа в белке
На kodomo установлена программа wordcount (часть пакета EMBOSS). Если зайти на kodomo через Putty и выполнить из командной строки команду
wordcount sw:yvyd_bacsu
то программа посчитает частоты слов заданной длины (а отдельные остатки – это буквы, то есть слова длины один) в последовательности белка, имеющего (в банке Swiss-Prot) идентификатор "YVYD_BACSU".
Будьте внимательны:
- прежде чем выполнять команду, заведите рабочую директорию (H:\term1\block3\practice14) и сделайте её активной (под Linux, т.е. в Putty, а не под Windows).
В выражении "sw:yvyd_bacsu" нет пробелов, а между sw и ID белка стоит двоеточие (не точка с запятой!).
Программа перед началом счёта задаст вам два вопроса. Внимательно прочитайте их и ответьте правильно. Если вас устраивает вариант ответа, приведённый в квадратных скобках, вместо ответа просто нажмите <Enter>.
Если программа считает более одной секунды, значит что-то не так, выполнение программы следует прервать. Под Linux, чтобы прервать выполнение программы, следует нажать <Ctrl+C>. Можно прервать программу и, например, в случае, если вы не готовы отвечать на вопрос, который она задала.
Подсчёт молекулярной массы белка
Молекулярная масса белка – это сумма молекулярных масс входящих в него остатков, плюс атомная масса водорода на N-конце, плюс атомная масса кислорода на C-конце.
Скопируйте таблицу, содержащую молекулярные массы остатков в книгу Excel с количествами остатков в вашем белке. Упорядочьте обе таблицы одинаковым образом, после чего добавьте столбец с массами остатков к таблице с количествами остатков. Внизу столбца с массами вставьте формулу: сумма произведений количеств на массы (функция SUMPRODUCT) плюс массы дополнительных атомов. Вставьте комментарий к ячейке с результатом, объясняющий, что означает это число (в форме, понятной для человека, который не знает, что за задание вы выполняли).
Молекулярная масса белка в банке Swiss-Prot
Если AC вашего белка P28368, то по адресу http://www.uniprot.org/uniprot/p28368.txt вы найдёте текст документа банка Swiss-Prot, посвящённого этому белку. Постарайтесь найти там значение молекулярной массы (MW, от "molecular weight").
Получение таблицы торсионных углов
Откройте структуру в Jmol и выполните команду
write RAMACHANDRAN <имя файла>
Имя файла должно быть полным (с путём), например H:\term1\block3\practice14\phipsi.txt.
Импортировать нужно только строки ATOM, через разделитель "пробел" или по ширине. Вам нужны столбцы со второго по восьмой (можно импортировать всё, а потом лишние стереть, то же и слишними строками). Не забудьте поменять точку на запятую, если ваш Excel настроен на десятичную запятую. Озаглавьте столбцы. Первый столбец чисел – это "phi", а второй – "psi".
Визуализация таблицы пар чисел в виде двумерной диаграммы
Выделите диапазон с парами чисел и вызовите меню Insert, в котором найдите нужный вам тип диаграммы.
Чтобы изменить диапазон и цену делений на оси (вертикальной или горизонтальной), щёлкните по оси правой кнопкой мыши и в меню выберите "Format axis".
Чтобы изменить название диаграммы, достаточно выполнить двойной щелчок по названию, откроется текстовое окошко для редактирования.
Таблица генов бактерии
Таблица добывается с ftp-сервера EBI, из базы данных "Integr8": ftp.ebi.ac.uk/pub/databases/integr8/chromosome_tables/.
Имя файла с хромосомной таблицей устроено так: XXXXXXXX.Y_yyyyyyyyyyyyyy.zzzzzzzzz.CP.gz Здесь XXXXXXXX – код записи; он нам неважен. Важно, что Y_yyyyyyyyyyyyyy состоит из первой буквы рода и названия вида и штамма бактерии. Например, штамм K12 бактерии Escherichia coli закодирован в имени файла так: E_coli-K12. zzzzzzzzzzzz – либо слово Chromosome (если геном состоит из нескольких хромосом, то добавляется ее номер), либо слово Plasmid (добавляется ее название). Плазмида – маленькая хромосома, живущая по своим законам. Бывают еще кое-какие слова. .CP – расширение файла с chromosome_table, принятое в EBI. .gz – формат архивирования (наш FAR умеет распаковывать).
Если у выбранного вами штамма бактерии несколько хромосом, то можно ограничиться одной; (*) можно взять и все, включая и плазмиды.
Для доступа можно использовать любой ftp-клиент (т.е. программу, которая умеет устанавливать связь по протоколу ftp). Например, программу ftp под Linux. Или любой браузер.
Я опишу, как использовать для этой цели FAR manager.
Сообщите FAR'у адрес, чтобы не набирать его каждый раз. Для этого: <Alt+F2> ⇒ выбираем FTP⇒ <Shift+F4>. В верхнем поле появившегося окошка напишите адрес.
В поле User напишите "anonymous", в поле Password – ваш e-mail. Description можно не заполнять – это для себя, чтобы знать, что за адрес сохраняете (можно написать, например "Chromosome tables"). Сохраните адрес, щёлкнув по Save. Теперь на ftp-сервер можно зайти, как если бы вы заходили в директорию.
Найдите нужный файл и скопируйте его в свою рабочую директорию.
Разархивируйте. Первый способ: в Far "зайдите" в архив как в директорию, в другой панели войдите в рабочую директорию, далее как если бы вы копировали файл. Второй способ: в командной строке kodomo наберите команду
gunzip <имя файла с архивом>
Импортировать нужно строки, не начинающиеся на # (начиная с шестой). Впрочем, пятая строка содержит названия столбцов, так что её тоже имеет смысл импортировать. Импортировать нужно с разделителем "табулятор", при этом (внимание!) снять галочку в чекбоксе "Считать последовательное разделители одним".
В полученной таблице оставьте только колонки "Primary_Gene_Name", "Ordered_Locus_Name", "Start_position", "Offset", "Direction". Смысл последних трёх такой:
- "Direction" – направление гена. "F" – вперёд, на "прямой" цепи, "R" – назад, на коплементарной цепи. Обе цепи двойной спирали ДНК биологически равноправны, но для записи координат генов произвольным образом выбирается одна из них, которая именуется "прямой".
- "Start_position" – это позиция начала гена на хромосоме. Если направление прямое, то это позиция первого нуклеотида стартового кодона. Если же направление обратное, то это позиция нуклеотида, комплементарного к последнему нуклеотиду стоп-кодона.
- "Offset" – это разность между позицией конца гена и позицией начала гена.
Добавьте столбец "Product_length" и впишите в одну из его ячеек формулу для расчёта длины белка (стоит подумать, как она получается из "Offset"!). Распространите формулу на все ячейки столбца.
Гистограмма
Слово "гистограмма" иногда употребляется для обозначения столбчатой диаграммы; в данном случае, однако, имеется в виду другое.
Предположим, у нас имеется большое количество чисел. Нас интересует, какие количества этих чисел попадают в тот или иной "карман" (например, от 10 до 20). Гистограмма – это таблица из двух столбцов. В первом расположены "карманы", то есть границы интервалов значений. Во втором – количества чисел нашего набора, попадающие в этот карман. Например:
1 2 2 18 3 11 4 5
означает, что 2 числа из нашего набора оказались меньше 1, 18 чисел заключены между 1 и 2, 11 чисел – между 2 и 3, и 5 чисел – между 3 и 4.
В Excel есть два способа построить гистограмму. Для использования любого из этих способов нужно сначала изготовить на отдельном листе с подходящим названием столбец с границами карманов. Например, для случая длин белков имеет смысл создать столбец с шагом 50, то есть из чисел 0, 50, 100, 150 и т.д., до примерно 1500 (белки длиннее 1500 будем считать все вместе). Столбец, как всегда, нужно озаглавить.
- Первый способ. В Excel 2007 и более поздних можно использовать функцию COUNTIFS (СЧЁТЕСЛИМН).
Синтаксис её такой:
=COUNTIFS(Sheet1!A2:A5000;">="&A2;Sheet1!A2:A5000;"<"&A3)
Аргументы в данном случае разделены символом ";" (при некоторых настройках они разделяются запятой!).
Первый аргумент Sheet1!A2:A5000 – диапазон для первого условия (до знака "!" – название листа).
Второй аргумент ">="&A2 – само первое условие. В данном случае предлагается проверять ячейки диапазона на то, не меньше ли число из диапазона числа в ячейке A2.
- Третий аргумент в данном случае совпадает с первым, это диапазон для второго условия.
Четвёртый аргумент "<"&A3 – второе условие. В данном случае предлагается проверять ячейки диапазона на то, меньше ли число из диапазона числа в ячейке A3.
Функция выдаёт число строк, удовлетворяющих всем условиям (условий может быть больше двух, число аргументов функции вдвое больше числа условий).
Подумайте, что надо закрепить (знаком $) в этой функции, чтобы при копировании вниз у нас получилась гистограмма чисел, находящихся в столбце A листа "Sheet1", с карманами из столбца A текущего листа. В самой нижней ячейке формулу придётся отредактировать, если мы хотим, чтобы она выдала нам количество чисел, больших самого нижнего значения столбца карманов.
Второй способ. Меню Data ⇒ Data Analysis ⇒ Histogram. Если в "Data" нет "Data Analysis", то круглая кнопка ⇒ Excel options ⇒ Add-Ins ⇒ Go ⇒ галочка напротив Analysis ToolPack.
В меню гистограммы:
- Входной диапазон (Input range) – колонка с длинами белков (заголовок не включать – только числа!)
- Диапазон карманов (Bin range) – это и есть столбец с границами интервалов
- В параметрах вывода выберите "Output range" (выходной диапазон), перекиньте курсор в соответствующее окошко и укажите свободную ячейку на листе (столбец под ней и справа должны быть свободны)
При успехе – увидите результат: число белков для каждого интервала длин.
Для построения диаграммы можно ещё при создании гистограммы поставить галочку в чекбокс "Chart output". Или же можно выделить оба столбца значений, Insert и т.д. Для подписей интервалов ниже оси X щёлкните правой кнопкой мыши на чистом фоне диаграммы ⇒выбрать данные ⇒ ряд ⇒ подписи оси X и далее.
Сводная таблица
Убедитесь, что все столбцы содержат заголовки.
Меню Insert ⇒ Pivot table. Активизируете окошко Table/Range и выделяете мышью нужные столбцы. Ставите точку в "New worksheet" и нажимаете OK.
Дальше – самое интересное. В списке заголовков столбцов ставите галочку против того, который содержит интересующие вас значения (например, "F" и "R" для таблицы генов). Теперь перетаскиваете мышью в поле "Values" названия тех столбцов, по которым будет делаться "свод". Например, для подсчёта количества разных значений в столбце нужно поставить против него галочку и его же перетащить в поле Value. Для подсчёта среднего значения по столбцу B для разных значений столбца A нужно поставить галочку против A, перетащить B в поле Values, затем нажать на чёрный треугольник, выбрать "Field settings" и там "Average".
Статистическая значимость различия двух чисел
Предположим, в результате какого-то процесса в коробочку A попало 237 шариков, а в коробочку B – 219 шариков. Вы хотите узнать, есть ли основания полагать, что процесс в какой-то мере предпочитает коробочку A.
Для этого вам нужно рассмотреть т.н. "нулевую гипотезу", которая в данном случае состоит в том, что попадания в обе коробочки равновероятны. Затем нужно посчитать вероятность "такого же" перекоса чисел при нулевой гипотезе.
Вопрос в том, что значит "такого же". Если мы посчитаем вероятность точно такого же результата: 237 на 219, то она, очевидно, будет очень маленькой. Более того, и вероятность выпадения ровно 20 орлов в серии из 40 бросаний монетки тоже (как нетрудно понять) довольно мала, хотя в данном случае никакого "перекоса" нет.
Значит, если мы хотим понять, есть ли вообще "перекос" или результаты эксперимента вполне отвечают нулевой гипотезе, нам нужно посчитать другую вероятность: того, что в одну из коробочек попадёт 219 или меньше шариков из 237+219=456.
Такая вероятность считается в Excel функцией "BINOMDIST" (БИНОМРАСП"). У неё четыре аргумента:
Number_s – число успехов, в данном случае 219 (меньшее из двух чисел);
Trials – число испытаний, в данном случае 456;
Probability_s – вероятность успеха, в данном случае 0,5 (равновероятны успех, т.е. попадание в коробочку B и неуспех, то есть попадание в коробочку A);
Cumulative – "накопленная" вероятность (если TRUE), то есть вероятность получить то же или меньшее число успехов, или индивидуальная (если FALSE), то есть вероятность получить именно такое число успехов. В данном случае нам нужно поставить TRUE.
В данном случае вероятность равна 0,21 – довольно большая. То есть у нас нет оснований отвергать нулевую гипотезу. Это значит, что никаких свидетельств в пользу предпочтения коробочки A нет.
Существенно, что если у нас не было заранее идеи о том, какая из коробочек может быть предпочитаемой, то посчитанную так вероятность нужно ещё умножить на два, чтобы получить вероятность того, что какая-нибудь из коробочек получит такое же или более сильное преимущество. Тогда вероятность 0,42, то есть в 42% случаев равновероятного выбора одна из коробочек получила бы такое же или даже большее преимущество.
Эту науку можно применить для сравнения двух чисел, представляющих какие-либо количества (например, генов на прямой и обратной цепи).
Для сравнения двух средних значений (например, средней длины генов на двух цепях) имеется более сложная наука. Простейший статистический критерий в данном случае выглядит так. Пусть в одной выборке (скажем, генов на прямой цепи)имеется N чисел и их среднее E, а в другой (скажем, генов на обратной цепи) – M чисел со средним D. Нужно посчитать среднее квадратичное отклонение всех длин от их среднего (функция STDEV). Обозначим его σ. Далее, если разность D–E отличается от нуля больше, чем на величину 3σSQRT(1/M + 1/N), то нулевая гипотеза отвергается, что означает наличие эффекта – различия в длинах генов на прямой и обратной цепях (SQRT – квадратный корень).
Если и M, и N достаточно велики (порядка нескольких сотен или больше), то этот критерий имеет вероятность ошибки примерно 1/300 (то есть в среднем в одном случае из трёхсот мы можем "обнаружить" эффект, которого на самом деле нет – перекос возник по случайным причинам).