Учебная страница курса биоинформатики,
год поступления 2020

Использование функций ЭТ

Данные для упражнений

Лежат здесь. Поддиректории названы номером упражнения. Можно брать любой из файлов, если их несколько.

Как представить результат

Создайте Google Sheet XXXXXXX_pr12 или файл XXXXXXX_pr12.xlsx, XXXXXXX - ваша фамилия латинскими буквами. Каждое упражнение выполняйте на отдельной странице. Страницы переименуйте в 1.a 2.c и т.д. соответственно выполненным заданиям. Формулы не удаляйте! Нужны для проверки, да и вам могут пригодиться в дальнейшей жизни)))

В очереди приведите ссылку на файл. Допустимо указать, что файл с результатами лежит в вашей директории term1/block3/credits.

Зачет практикума

Получается при зачёте как минимум одного задания с одним вариантом входного файла из каждого из 7-и разделов

Упражнения

0. Корректный импорт

См. задание, выполняемое в день занятия. Сохраняется в отдельном файле, см. по соответствующей ссылке.

1. Вычислительные формулы

(2) Постройте график функции Acos(2πnx + φ) на отрезке [0;10] с интервалом 0,01. Параметры A, n, φ должны лежать в отдельных ячейках так, чтобы их было удобно менять. n — целое, A и φ — любые действительные. Объясните как меняется график при изменении параметров A, n, φ (формула, распространение вниз, график, задание параметров)
(3) В колонке F лежит последовательность, разбитая на строки, по 5 букв в ячейке. Выполнение этого задания полезно для выполнения 3.b и аналогичных заданий в жизни. В колонках A и B приведите последовательно координаты всех букв последовательности. А именно, в ячейке A:i колонки A - номер строки, в которой записан i-й начиная от начала символ последовательности, в колонке B:i номер i-го символа последовательности в ячейке F с номером из A:i. Все формулами использующими 5 записанную в фиксированную ячейку как параметр. Чтобы при проверке мог заменить 5 на другое число и убедиться, что формулы работают адекватно. Многословно получилось, лучше покажу:

A B ...  F      G
1 1      MTGRS  5
1 2      RLLFT
1 3      hYVPA
1 4      .....
1 5
2 1
2 2
2 3
...

(целое деление, деление с остатком, СТРОКА)

2. Работа с текстами

(1) Дан файл со списком студентов. Добавьте первую колонку с идентификаторами вида <Фамилия>_<Имя>.Пример из "иван" "Иванов" надо получить "Иванов_Иван". Следите за прописными и строчными! (начальная прописная, соединить текст)
(1) Дан файл с идентификаторами участков последовательностей белков (доменов — для тех, кто знает это слово). Создайте плоскую таблицу с четырьмя колонками: идентификатор всего белка (имеет вид XXXX_YYYYY), начало участка, конец участка, длина участка. (разбить колонку по разделителям, плоская таблица, длина ранга)
(3) Дан файл со списком штаммов бактерий. Добавьте колонку сокращенных названий видов. Формат видового названия: <Первая буква рода>.<вид>. Например, из "Escherihia coli K12" надо получить "E.coli" (левый символ, найти, длина - многоходовка)

3. Адреса и ссылки

(1) Дан файл с последовательностью ДНК, записанной в один столбец. На новом листе составьте таблицу встречаемости нуклеотидов A, T, G, C в ней. Первая колонка – нуклеотид, вторая – число встреч, третья – процент от общего числа нуклеотидов. ( счёт если, процент от суммы)
(2) Создайте страницу Excel, в котором последовательность вашего белка записана в колонку сверху вниз. Название колонки: my_protein. (номер строки, выбор символа из текста - как минимум, двухходовка)
(1) Дан файл с последовательностью белка, записанной в один столбец (можно взять свой белок). Составьте таблицу встречаемости 20-и аминокислотных остатков – аналогично заданию 3a.
(2 или 3) Дан файл с последовательностями нескольких белков; 1я колонка - идентификатор белка, вторая - аминокислотный остаток. На новом листе составьте таблицу встречаемости аминокислотных остатков в белках. 1я строка содержит коды 20-и аминокислот, 1й столбец - идентификаторы белков, в ячейке - число встреч аминокислотного остатка в белке. (удаление повторов, транспонирование строки, счёт если множественный). Возьмите либо последовательности трех белков из отдельных файлов (на 2 балла), либо файл sequences.xls с последовательностями многих белков (3)
(2) Дана таблица встречаемости аминокислотнах остатков в белках (можно взять результат предыдущего задания). Создайте таблицу с процентами встречаемости аминокислот в каждом белке. (суммы, проценты, распространение формул по таблице)

4. Создание сводных таблиц

(1) Создайте таблицу хозяев вирусов (hosts) с колонками "хозяин" (или "host") и "число вирусов", для которых указан этот хозяин (или "count")
(1) Создайте таблицу семейств вирусов (subgroups) с колонками "семейство" (или "subgroup") и "число вирусов" в семействе (или "count")
(2) Создайте таблицу, в которой по строкам - семейство вируса ("subgroup"), по столбцам - хозяева вирусов ("hosts"), а в ячейках указано количество вирусов из такого семейства и с таким хозяином
(3) Создайте таблицу длин геномов вирусов (Size KB) с колонками "порог длины" (или "size threshold"),"диапазон" (или "range") и "число вирусов" с длиной в диапазоне(или "count"). Пороги выберите такие: 1 (т.е. 1 KB = 1000 нуклеотидов), 2, 4, 8, 16, ..., 2048. Диапазоны обозначьте так: "0-1","1-2", ..., "1024-2048" (Такие диапазоны, т.н. "логарифмическая шкала по Y", предлагается для того, чтобы на одном графике можно было бы изобразить значения, различающиеся на несколько порядков, от единиц до десятков тысяч)

5. Статистические

(1) Дан файл с набором длин последовательностей всех изоформ белков человека (с одного гена может экспрессироваться, т.е. производится, несколько изоформ белка в результате альтернативного сплайсинга). Рассчитайте среднюю длину, стандартное отклонение (среднее квадратичное отклонений данных от среднего значения), медиану, минимальное и максимальное значение.
(1) Дано несколько наблюдаемых значений величины. Пример: длины белков. Рассчитайте среднее значение и среднее квадратичное отклонение наблюдаемых значений от среднего по формулам. Отклонением величины x1 от среднего называется разность (x1 - E), где E - среднее арифметическое наблюдаемых величин. Среднее квадратичное трех чисел x1, x2, x3 равно КОРЕНЬ( ( x1² + x2² + x3²)/3 ). Сравните с теми же величинами, рассчитанными с помощью Excel, раздел - статистические функции, СРЗНАЧ и СТАНДОТКЛ.
(2) Дана таблица частот (в процентах) встречаемости аминокислотных остатков в нескольких белках. Для каждого остатка рассчитайте среднюю частоту и стандартное отклонение от среднего.

6. Логические

(1) Дана таблица координат генов в геноме. Первая колонка – первый нуклеотид старт-кодона, вторая колонка – последний нуклеотид стоп-кодона.

Добавьте три колонки: минимальная координата гена, максимальная координата, "ориентация гена": 1, если он закодирован на прямой цепи, –1, если на обратной.

b. (3) Дана та же таблица. Добавьте колонку, в которой группы идущих подряд в геноме одинаково ориентированных генов отмечены одним номером. Номера групп идут подряд: 1, 2, 3 и т.д. Допускается группа из одного гена. Пример результата:

gene_start gene_end gene_ori group_no
1          100      +1       1
120        130      +1       1
140        128      -1       2
150        200      +1       3
260        210      -1       4
320        270      -1       4
......

7. ВПР — вертикальный просмотр

(2) Дана последовательность белка в трехбуквенном коде. Создайте последовательность в однобуквенном коде, пользуясь таблицей перекодировки.

Упражнения

На лист prot-sequence скопируйте последовательность вашего белка в ячейки F1, F2 и т.д. если понадобится. Колонку A назовите "порядковый номер", колонку B - "последовательность" (или "protein-sequence"). В колонке A, начиная с A2, должны быть номера 1, 2, ...; в колонке B, начиная с B2 - буквы последовательности.

Создайте файл XXXXXXX_pr14_ex.xlsx, XXXXXXX - ваша фамилия латинскими буквами. Каждое упражнение выполняйте на отдельной странице. Страницы переименуйте в ex1, ex2 и т.д.(ex - от exercise)

Для проверки следует поставить ссылку на этот файл с новой веб-страницы Excel.

На основе данных со страницы side_info ведомости создайте плоскую таблицу с колонками:
- фамилия
- имя
- login
- адрес сайта (гиперссылки удалить!)
- число голосований
  - скопируйте side_info на страницу своего файла
  - для удаления гиперссылок скопируйте столбец в редактор FAR'а и вставьте столбец обратно
  - удалите все лишнее
  - используйте команду vlookup (ВПР) для перенесения данных из второй таблицы на этой странице; см. 3й рисунок: яблоки заменить на пользовательское имя, цену - на число голосований и все получится!
(*) Файл enzymes.txt содержит сведения о ферментах из систем рестрикции-модификации в геномах бактерий и архей. Создайте сводную таблицу у которой строчки - штаммы бактерий, столбцы - типы ферментов, ячейки содержат число таких ферментов.

Способ 1: с помощью функции countifs()

Создайте страницу (лист) pv_strain (pv - от Pivot table, сводная таблица.
В колонку A начиная от A2 поместите список штаммов без повторений!
- скопируйте колонку со штаммаи из исходного листа
- меню Data => Remove duplicates
  - см. также http://www.planetaexcel.ru/techniques/14/103/
В строку 1, начиная с колонки B поместите список значений в колонке Enzyme
- получите список уникальных значений в колонке так же, как выше.
- выделите его, Ctrl+C
- курсор - на ячейкe B1 => правая кнопка мыши => Paste special (специальная вставка) => поставьте галочку transpose (транспонировать) - в нижнем правом углу => Ok

Итак, получены нужные названия строк и столбцов. Осталось заполнить ячейки.
- в ячейку B2 вставьте формулу countifs (счётеслимн), нажав кнопку fx мастера таблиц (слева от окна формул) или введя =countifs()
- аргументы countifs такие: 1й - диапазон, у нас - колонка strain на исходном листе; 2й - 1е условие для отбора строк, у нас тот штамм, который указан в A1; 3й -другой диапазон, у нас колонка enzyme; 4й - 2е условие для отбора строк, у нас тип фермента из B1 и т.д; нам двух условий хватит; Enter
- если все написано правильно, то в B2 окажется число таких строк на исходном листе, что в колонке Strain указан тот штамм, что стоит в A2, и в колонке Enzyme стоит тот тип фермента, что указан в B1; это нам и нужно
- правильно расставьте доллары в формуле из B2
- распространите формулу вправо (Ctrl+R) и вниз (Ctrl+D)

Способ 2: с помощью мастера таблиц

Убедитесь, что "Пакет анализа VBA" подключен
- нажмите на круг справа сверху, где сохранение и т.п. => параметры => надстройка => Управление: Надстройки Excel => Перейти => проверьте наличие галочки против Пакета анализа
- на компьютерах ком. классов Пакет анализа подключен
Выделите область данных на исходном листе
Меню Вставка => Сводная таблица => На новый лист; появится окошко как здесь http://www.planetaexcel.ru/techniques/8/130/
Перетащите мышкой поле Strains в квадратик строк, поле Enzyme - в квадратик столбцов, любое поле - а квадратик значения и все должно получиться само собой)))

Kodomo

Пользователь

Учебная страница курса биоинформатики,
год поступления 2020

Использование функций ЭТ

Данные для упражнений

Как представить результат

Зачет практикума

Упражнения

0. Корректный импорт

1. Вычислительные формулы

2. Работа с текстами

3. Адреса и ссылки

4. Создание сводных таблиц

5. Статистические

6. Логические

7. ВПР — вертикальный просмотр

Упражнения

Список умений, которые необходимо продемонстрировать для получения зачёта

Kodomo

Пользователь

Учебная страница курса биоинформатики, год поступления 2020

Использование функций ЭТ

Данные для упражнений

Как представить результат

Зачет практикума

Упражнения

0. Корректный импорт

1. Вычислительные формулы

2. Работа с текстами

3. Адреса и ссылки

4. Создание сводных таблиц

5. Статистические

6. Логические

7. ВПР — вертикальный просмотр

Упражнения

Список умений, которые необходимо продемонстрировать для получения зачёта

Учебная страница курса биоинформатики,
год поступления 2020