Kodomo

Пользователь

Учебная страница курса биоинформатики,
год поступления 2020

Использование функций ЭТ

Данные для упражнений

Лежат здесь. Поддиректории названы номером упражнения. Можно брать любой из файлов, если их несколько.

Как представить результат

Создайте Google Sheet XXXXXXX_pr12 или файл XXXXXXX_pr12.xlsx, XXXXXXX - ваша фамилия латинскими буквами. Каждое упражнение выполняйте на отдельной странице. Страницы переименуйте в 1.a 2.c и т.д. соответственно выполненным заданиям. Формулы не удаляйте! Нужны для проверки, да и вам могут пригодиться в дальнейшей жизни)))

В очереди приведите ссылку на файл. Допустимо указать, что файл с результатами лежит в вашей директории term1/block3/credits.

Зачет практикума

Получается при зачёте как минимум одного задания с одним вариантом входного файла из каждого из 7-и разделов

Упражнения

0. Корректный импорт

См. задание, выполняемое в день занятия. Сохраняется в отдельном файле, см. по соответствующей ссылке.

1. Вычислительные формулы

  1. (2) Постройте график функции Acos(2πnx + φ) на отрезке [0;10] с интервалом 0,01. Параметры A, n, φ должны лежать в отдельных ячейках так, чтобы их было удобно менять. n — целое, A и φ — любые действительные. Объясните как меняется график при изменении параметров A, n, φ (формула, распространение вниз, график, задание параметров)

  2. (3) В колонке F лежит последовательность, разбитая на строки, по 5 букв в ячейке. Выполнение этого задания полезно для выполнения 3.b и аналогичных заданий в жизни. В колонках A и B приведите последовательно координаты всех букв последовательности. А именно, в ячейке A:i колонки A - номер строки, в которой записан i-й начиная от начала символ последовательности, в колонке B:i номер i-го символа последовательности в ячейке F с номером из A:i. Все формулами использующими 5 записанную в фиксированную ячейку как параметр. Чтобы при проверке мог заменить 5 на другое число и убедиться, что формулы работают адекватно. Многословно получилось, лучше покажу:

A B ...  F      G
1 1      MTGRS  5
1 2      RLLFT
1 3      hYVPA
1 4      .....
1 5
2 1
2 2
2 3
...

(целое деление, деление с остатком, СТРОКА)

2. Работа с текстами

  1. (1) Дан файл со списком студентов. Добавьте первую колонку с идентификаторами вида <Фамилия>_<Имя>.Пример из "иван" "Иванов" надо получить "Иванов_Иван". Следите за прописными и строчными! (начальная прописная, соединить текст)

  2. (1) Дан файл с идентификаторами участков последовательностей белков (доменов — для тех, кто знает это слово). Создайте плоскую таблицу с четырьмя колонками: идентификатор всего белка (имеет вид XXXX_YYYYY), начало участка, конец участка, длина участка. (разбить колонку по разделителям, плоская таблица, длина ранга)

  3. (3) Дан файл со списком штаммов бактерий. Добавьте колонку сокращенных названий видов. Формат видового названия: <Первая буква рода>.<вид>. Например, из "Escherihia coli K12" надо получить "E.coli" (левый символ, найти, длина - многоходовка)

3. Адреса и ссылки

  1. (1) Дан файл с последовательностью ДНК, записанной в один столбец. На новом листе составьте таблицу встречаемости нуклеотидов A, T, G, C в ней. Первая колонка – нуклеотид, вторая – число встреч, третья – процент от общего числа нуклеотидов. ( счёт если, процент от суммы)

  2. (2) Создайте страницу Excel, в котором последовательность вашего белка записана в колонку сверху вниз. Название колонки: my_protein. (номер строки, выбор символа из текста - как минимум, двухходовка)
  3. (1) Дан файл с последовательностью белка, записанной в один столбец (можно взять свой белок). Составьте таблицу встречаемости 20-и аминокислотных остатков – аналогично заданию 3a.

  4. (2 или 3) Дан файл с последовательностями нескольких белков; 1я колонка - идентификатор белка, вторая - аминокислотный остаток. На новом листе составьте таблицу встречаемости аминокислотных остатков в белках. 1я строка содержит коды 20-и аминокислот, 1й столбец - идентификаторы белков, в ячейке - число встреч аминокислотного остатка в белке. (удаление повторов, транспонирование строки, счёт если множественный). Возьмите либо последовательности трех белков из отдельных файлов (на 2 балла), либо файл sequences.xls с последовательностями многих белков (3)
  5. (2) Дана таблица встречаемости аминокислотнах остатков в белках (можно взять результат предыдущего задания). Создайте таблицу с процентами встречаемости аминокислот в каждом белке. (суммы, проценты, распространение формул по таблице)

4. Создание сводных таблиц

  1. (1) Создайте таблицу хозяев вирусов (hosts) с колонками "хозяин" (или "host") и "число вирусов", для которых указан этот хозяин (или "count")

  2. (1) Создайте таблицу семейств вирусов (subgroups) с колонками "семейство" (или "subgroup") и "число вирусов" в семействе (или "count")

  3. (2) Создайте таблицу, в которой по строкам - семейство вируса ("subgroup"), по столбцам - хозяева вирусов ("hosts"), а в ячейках указано количество вирусов из такого семейства и с таким хозяином

  4. (3) Создайте таблицу длин геномов вирусов (Size KB) с колонками "порог длины" (или "size threshold"),"диапазон" (или "range") и "число вирусов" с длиной в диапазоне(или "count"). Пороги выберите такие: 1 (т.е. 1 KB = 1000 нуклеотидов), 2, 4, 8, 16, ..., 2048. Диапазоны обозначьте так: "0-1","1-2", ..., "1024-2048" (Такие диапазоны, т.н. "логарифмическая шкала по Y", предлагается для того, чтобы на одном графике можно было бы изобразить значения, различающиеся на несколько порядков, от единиц до десятков тысяч)

5. Статистические

  1. (1) Дан файл с набором длин последовательностей всех изоформ белков человека (с одного гена может экспрессироваться, т.е. производится, несколько изоформ белка в результате альтернативного сплайсинга). Рассчитайте среднюю длину, стандартное отклонение (среднее квадратичное отклонений данных от среднего значения), медиану, минимальное и максимальное значение.
  2. (1) Дано несколько наблюдаемых значений величины. Пример: длины белков. Рассчитайте среднее значение и среднее квадратичное отклонение наблюдаемых значений от среднего по формулам. Отклонением величины x1 от среднего называется разность (x1 - E), где E - среднее арифметическое наблюдаемых величин. Среднее квадратичное трех чисел x1, x2, x3 равно КОРЕНЬ( ( x12 + x22 + x32)/3 ). Сравните с теми же величинами, рассчитанными с помощью Excel, раздел - статистические функции, СРЗНАЧ и СТАНДОТКЛ.

  3. (2) Дана таблица частот (в процентах) встречаемости аминокислотных остатков в нескольких белках. Для каждого остатка рассчитайте среднюю частоту и стандартное отклонение от среднего.

6. Логические

  1. (1) Дана таблица координат генов в геноме. Первая колонка – первый нуклеотид старт-кодона, вторая колонка – последний нуклеотид стоп-кодона.

Добавьте три колонки: минимальная координата гена, максимальная координата, "ориентация гена": 1, если он закодирован на прямой цепи, –1, если на обратной.

gene_start gene_end gene_ori group_no
1          100      +1       1
120        130      +1       1
140        128      -1       2
150        200      +1       3
260        210      -1       4
320        270      -1       4
......   

7. ВПР — вертикальный просмотр

  1. (2) Дана последовательность белка в трехбуквенном коде. Создайте последовательность в однобуквенном коде, пользуясь таблицей перекодировки.