Учебная страница курса биоинформатики,
год поступления 2017

Упражнения

Данные для упражнений лежат здесь. Поддиректории названы номером упражнения. Можно брать любой из файлов, если их несколько.

1. Вычислительные формулы

(1) В ячейке A1 лежит целое число от 2-х до 10-и. Например, A1 = 5. Колонку B назовите "номер строки". В ней начиная с B2 должно содержаться пять единиц (если A1 = 5), потом пять двоек, потом пять троек и т.д. вплоть до ячейки B100
(1) В ячейке A1 лежит целое число от 2-х до 10-и. Например, A1 = 5. Колонку B назовите "номер столбца". В ней начиная с B2 должно содержаться 1, 2, 3, 4, 5(если A1 = 5), потом опять 1, 2, 3, 4, 5 и т.д. вплоть до ячейки B100
(2) Постройте график функции Acos(2πnx + φ) на отрезке [0;10] с интервалом 0,01. Параметры A, n, φ должны лежать в отдельных ячейках так, чтобы их было удобно менять. n — целое, A и φ — любые действительные.

Объясните как меняется график при изменении параметров A, n, φ (формула, распространение вниз, график, задание параметров)

2. Работа с текстами

(1) Дан файл со списком студентов. Добавьте первую колонку с идентификаторами вида <Фамилия>_<Имя>.Пример из "иван" "Иванов" надо получить "Иванов_Иван". Следите за прописными и строчными! (начальная прописная, соединить текст)
(1) Дан файл с идентификаторами участков последовательностей белков (доменов — для тех, кто знает это слово). Создайте плоскую таблицу с четырьмя колонками: идентификатор всего белка (имеет вид XXXX_YYYYY), начало участка, конец участка, длина участка. (разбить колонку по разделителям, плоская таблица, длина ранга)
(3) Дан файл со списком штаммов бактерий. Добавьте колонку сокращенных названий видов. Формат видового названия: <Первая буква рода>.<вид>. Например, из "Escherihia coli K12" надо получить "E.coli" (левый символ, найти, длина - многоходовка)

3. Составление таблиц, адреса и ссылки

(1) Дан файл с последовательностью ДНК, записанной в один столбец. На новом листе составьте таблицу встречаемости нуклеотидов A, T, G, C в ней. Первая колонка – нуклеотид, вторая – число встреч, третья – процент от общего числа нуклеотидов. ( счёт если, процент от суммы)
(2) Создайте файл Excel, в котором последовательность вашего белка записана в колонку сверху вниз. Название колонки: my_protein. (номер строки, выбор символа из текста - как минимум, двухходовка)
(1) Дан файл с последовательностью белка, записанной в один столбец (можно взять свой белок). Составьте таблицу встречаемости 20-и аминокислотных остатков – аналогично заданию 3a.
(2 или 3) Дан файл с последовательностями нескольких белков; 1я колонка - идентификатор белка, вторая - аминокислотный остаток. На новом листе составьте таблицу встречаемости аминокислотных остатков в белках. 1я строка содержит коды 20-и аминокислот, 1й столбец - идентификаторы белков, в ячейке - число встреч аминокислотного остатка в белке. (удаление повторов, транспонирование строки, счёт если множественный). Возьмите либо последовательности трех белков из отдельных файлов (на 2 балла), либо файл sequences.xls с последовательностями всех белков, выданных студентам вашего курса (3)
(2) Дана таблица встречаемости аминокислотнах остатков в белках (можно взять результат предыдущего задания). Создайте таблицу с процентами встречаемости аминокислот в каждом белке. (суммы, проценты, распространение формул по таблице)
(1) Создайте таблицу хозяев вирусов (hosts) с колонками "хозяин" (или "host") и "число вирусов", для которых указан этот хозяин (или "count")
(1) Создайте таблицу семейств вирусов (subgroups) с колонками "семейство" (или "subgroup") и "число вирусов" в семействе (или "count")
(2) Создайте таблицу, в которой по строкам - семейство вируса ("subgroup"), по столбцам - хозяева вирусов ("hosts"), а в ячейках указано количество вирусов из такого семейства и с таким хозяином
(3) Создайте таблицу длин геномов вирусов (Size KB) с колонками "порог длины" (или "size threshold"),"диапазон" (или "range") и "число вирусов" с длиной в диапазоне(или "count"). Пороги выберите такие: 1 (т.е. 1 KB = 1000 нуклеотидов), 2, 4, 8, 16, ..., 2048. Диапазоны обозначьте так: "0-1","1-2", ..., "1024-2048" (Такие диапазоны, т.н. "логарифмическая шкала по Y", предлагается для того, чтобы на одном графике можно было бы изобразить значения, различающиеся на несколько порядков, от единиц до десятков тысяч)

4. Статистические

(1) Дан файл с набором длин последовательностей всех изоформ белков человека (с одного гена может экспрессироваться, т.е. производится, несколько изоформ белка в результате альтернативного сплайсинга). Рассчитайте среднюю длину, стандартное отклонение (среднее квадратичное отклонений данных от среднего значения), медиану, минимальное и максимальное значение.
(1) Дано несколько наблюдаемых значений величины. Пример: длины белков. Рассчитайте среднее значение и среднее квадратичное отклонение наблюдаемых значений от среднего по формулам. Отклонением величины x1 от среднего называется разность (x1 - E), где E - среднее арифметическое yнаблюдаетмых величин. Среднее квадратичное трех чисел x1, x2, x3 равно КОРЕНЬ( ( x1² + x2² + x3²)/3 ). Сравните с теми же величинами, рассчитанными с помощью Excel, раздел - статистические функции, СРЗНАЧ и СТАНДОТКЛ.
(2) Дана таблица частот (в процентах) встречаемости аминокислотных остатков в нескольких белках. Для каждого остатка рассчитайте среднюю частоту и стандартное отклонение от среднего.

5. Логические

(1) Дана таблица координат генов в геноме. Первая колонка – первый нуклеотид старт-кодона, вторая колонка – последний нуклеотид стоп-кодона.

Добавьте три колонки: минимальная координата гена, максимальная координата, "ориентация гена": 1, если он закодирован на прямой цепи, –1, если на обратной.

b. (3) Дана та же таблица. Добавьте колонку, в которой группы идущих подряд в геноме одинаково ориентированных генов отмечены одним номером. Номера групп идут подряд: 1, 2, 3 и т.д. Допускается группа из одного гена. Пример результата:

gene_start gene_end gene_ori group_no
1          100      +1       1
120        130      +1       1
140        128      -1       2
150        200      +1       3
260        210      -1       4
320        270      -1       4
......

6. ВПР — вертикальный просмотр

(2) Дана последовательность белка в трехбуквенном коде. Создайте последовательность в однобуквенном коде, пользуясь таблицей перекодировки.

Упражнения

На лист prot-sequence скопируйте последовательность вашего белка в ячейки F1, F2 и т.д. если понадобится. Колонку A назовите "порядковый номер", колонку B - "последовательность" (или "protein-sequence"). В колонке A, начиная с A2, должны быть номера 1, 2, ...; в колонке B, начиная с B2 - буквы последовательности.

Создайте файл XXXXXXX_pr14_ex.xlsx, XXXXXXX - ваша фамилия латинскими буквами. Каждое упражнение выполняйте на отдельной странице. Страницы переименуйте в ex1, ex2 и т.д.(ex - от exercise)

Для проверки следует поставить ссылку на этот файл с новой веб-страницы Excel.

На основе данных со страницы side_info ведомости создайте плоскую таблицу с колонками:
- фамилия
- имя
- login
- адрес сайта (гиперссылки удалить!)
- число голосований
  - скопируйте side_info на страницу своего файла
  - для удаления гиперссылок скопируйте столбец в редактор FAR'а и вставьте столбец обратно
  - удалите все лишнее
  - используйте команду vlookup (ВПР) для перенесения данных из второй таблицы на этой странице; см. 3й рисунок: яблоки заменить на пользовательское имя, цену - на число голосований и все получится!
(*) Файл enzymes.txt содержит сведения о ферментах из систем рестрикции-модификации в геномах бактерий и архей. Создайте сводную таблицу у которой строчки - штаммы бактерий, столбцы - типы ферментов, ячейки содержат число таких ферментов.

Способ 1: с помощью функции countifs()

Создайте страницу (лист) pv_strain (pv - от Pivot table, сводная таблица.
В колонку A начиная от A2 поместите список штаммов без повторений!
- скопируйте колонку со штаммаи из исходного листа
- меню Data => Remove duplicates
  - см. также http://www.planetaexcel.ru/techniques/14/103/
В строку 1, начиная с колонки B поместите список значений в колонке Enzyme
- получите список уникальных значений в колонке так же, как выше.
- выделите его, Ctrl+C
- курсор - на ячейкe B1 => правая кнопка мыши => Paste special (специальная вставка) => поставьте галочку transpose (транспонировать) - в нижнем правом углу => Ok

Итак, получены нужные названия строк и столбцов. Осталось заполнить ячейки.
- в ячейку B2 вставьте формулу countifs (счётеслимн), нажав кнопку fx мастера таблиц (слева от окна формул) или введя =countifs()
- аргументы countifs такие: 1й - диапазон, у нас - колонка strain на исходном листе; 2й - 1е условие для отбора строк, у нас тот штамм, который указан в A1; 3й -другой диапазон, у нас колонка enzyme; 4й - 2е условие для отбора строк, у нас тип фермента из B1 и т.д; нам двух условий хватит; Enter
- если все написано правильно, то в B2 окажется число таких строк на исходном листе, что в колонке Strain указан тот штамм, что стоит в A2, и в колонке Enzyme стоит тот тип фермента, что указан в B1; это нам и нужно
- правильно расставьте доллары в формуле из B2
- распространите формулу вправо (Ctrl+R) и вниз (Ctrl+D)

Способ 2: с помощью мастера таблиц

Убедитесь, что "Пакет анализа VBA" подключен
- нажмите на круг справа сверху, где сохранение и т.п. => параметры => надстройка => Управление: Надстройки Excel => Перейти => проверьте наличие галочки против Пакета анализа
- на компьютерах ком. классов Пакет анализа подключен
Выделите область данных на исходном листе
Меню Вставка => Сводная таблица => На новый лист; появится окошко как здесь http://www.planetaexcel.ru/techniques/8/130/
Перетащите мышкой поле Strains в квадратик строк, поле Enzyme - в квадратик столбцов, любое поле - а квадратик значения и все должно получиться само собой)))

Kodomo

Пользователь

Учебная страница курса биоинформатики,
год поступления 2017

Упражнения

1. Вычислительные формулы

2. Работа с текстами

3. Составление таблиц, адреса и ссылки

4. Статистические

5. Логические

6. ВПР — вертикальный просмотр

Упражнения

Kodomo

Пользователь

Учебная страница курса биоинформатики, год поступления 2017

Упражнения

1. Вычислительные формулы

2. Работа с текстами

3. Составление таблиц, адреса и ссылки

4. Статистические

5. Логические

6. ВПР — вертикальный просмотр

Упражнения

Учебная страница курса биоинформатики,
год поступления 2017