Учебная страница курса биоинформатики,
год поступления 2019
Модификация заданий будущих поколений студентов. Просить создать лист Comments для наблюдений и объяснений: № задания Комментарий. Для ряда упражнений комментарий обязателен: 4.1, 4.2.2, 4.3.1 и др. ААл
Где должны лежать результаты
В файле с именем XXXXXXX_exercises.xlsx или в Google sheet. В любом случае результаты должны быть доступны по ссылке с вашей wiki страницы.
Результат упражнения должно быть на отдельной странице с соответствующим названием. Данные для упражнения тоже должны быть на отдельной странице
Где лежат файлы для выполнения заданий
Данные для упражнений лежат здесь. Поддиректории названы по упражнениям. Можно брать любой из файлов, если их несколько.
1. Импорт данных. 9. Неудобности
1.1 директория import; страница с результатами import
Импортировать текстовый файл в Excel или Google Sheet. Убедиться,что все в порядке.
2. Плоская таблица 7. Форматирование
2.1.1 Плоская таблица Продемонстрировать плоскую таблицу genes из пр11-1, c разумным форматированием. Закрепить в ней строку заголовков и столбец идентификаторов строк (меню вид => закрепить или новое окно; view => Freeze в Google Sheet)
2.1.2 Плоская таблица;директория import; страница с результатом flat_table Cоздать плоскую таблицу c разумным форматированием. Закрепить в ней строку заголовков и столбец идентификаторов строк (меню вид => закрепить или новое окно; view => Freeze в Google Sheet)
3. Специальная вставка
3.1 (директория special,страница no_formulas) Дана плоская таблица. Некоторые колонки заполнены формулами. Для каждой такой колонки скопируйте формулу из 2й строки в примечание к ячейке с заголовком колонки. Убейте формулы во всей таблице, оставив значения. Объясните формулы, объясните как восстановить исходный вид, если потребуется.
4. Формулы
4.1 Математические; страница cos(x). Постройте график функции Acos(2πnx + φ) на отрезке [0;10] с интервалом 0,01. Параметры A, n, φ должны лежать в отдельных ячейках так, чтобы их было удобно менять. n — целое, A и φ — любые действительные. Объясните как меняется график при изменении параметров A, n, &phi
4.2.1 Статистические; директория protein_lengths; страница deviation) Дано несколько наблюдаемых значений величины. Пример: длины белков. Рассчитайте среднее значение и среднее квадратичное отклонение наблюдаемых значений от среднего по формулам. Отклонением величины x1 от среднего называется разность (x1 - E), где E - среднее арифметическое наблюдаемых величин. Среднее квадратичное трех чисел x1, x2, x3 равно КОРЕНЬ( ( x12 + x22 + x32)/3 ). Сравните с теми же величинами, рассчитанными с помощью Excel, раздел — статистические функции, СРЗНАЧ и СТАНДОТКЛ.
4.2.2 Статистические; страница random Из 1000 генов 400 лежат на цепочке +1, 600 - на цепочке -1. Можно ли объяснить такое распределение по цепочкам случайностью? Для ответа создайте колонку из 1000 случайных чисел +1 и -1 и вычислите отклонение от ожидаемого 500: больше оно от 100 (как в данных) или меньше. Сделайте еще 100 таких колонок. Если среди 100 колонок отклонение больше 100 не встречается ни разу, то похоже данное распределение не случайно (с уровнем доверия p = 0.01). команды =если(случ()> 0.5, +1, -1)
4.3.1 Проверка значений (директория dna_seq; страница base_frequences)Дан файл с последовательностью ДНК, записанной в один столбец. На новом листе составьте таблицу встречаемости нуклеотидов A, T, G, C в ней. Первая колонка – нуклеотид, вторая – число встреч, третья – процент от общего числа нуклеотидов. (COUNTIF - СЧЁТЕСЛИ, процент от суммы)
4.3.2 Проверка значений; директория viruses; страница subgroups_vs_hosts). Создайте таблицу, в которой по строкам — семейства вирусов ("subgroup"), по столбцам — хозяева вирусов ("hosts"), а в ячейках указано количество вирусов из такого семейства и с таким хозяином.
4.3.3 Проверка значений; директория viruses; страница lengths_distr) Создайте таблицу длин геномов вирусов (Size KB) с колонками "порог длины" (или "size threshold"),"диапазон" (или "range") и "число вирусов" с длиной в диапазоне (или "count"). Пороги выберите такие: 1 (т.е. 1 KB = 1000 нуклеотидов), 2, 4, 8, 16, ..., 2048. Диапазоны обозначьте так: "0-1","1-2", ..., "1024-2048" (Такие диапазоны, т.н. "логарифмическая шкала по Y", предлагается для того, чтобы на одном графике можно было бы изобразить значения, различающиеся на несколько порядков, от единиц до десятков тысяч).
4.3.4 Проверка значений; директория prot_seq; страница aa_frequences)Дан файл с последовательностью белка, записанной в один столбец (можно взять свой белок). Составьте таблицу встречаемости 20-и аминокислотных остатков — аналогично 4.3.1.
4.4.1 Логические Объясните принимающему как работает формула в ведомости, которая выставляет штраф за опоздание в соответствующей колонке
4.4.2 Логические директория genes_coord; страница gene_coords) Дана таблица координат генов в геноме. Первая колонка – первый нуклеотид старт-кодона, вторая колонка – последний нуклеотид стоп-кодона.
Добавьте три колонки: минимальная координата гена, максимальная координата, "ориентация гена": 1, если он закодирован на прямой цепи, –1, если на обратной.
4.4.3 Логические; директория genes_coord, страница operons). Добавьте колонку, в которой группы идущих подряд в геноме одинаково ориентированных генов отмечены одним номером. Номера групп идут подряд: 1, 2, 3 и т.д. Допускается группа из одного гена. Пример результата:
gene_start gene_end gene_ori group_no 1 100 +1 1 120 130 +1 1 140 128 -1 2 150 200 +1 3 260 210 -1 4 320 270 -1 4 ......
4.4.4 Логические; директория genes; страница hypothetical)В файл добавьте колонку, в которой стоит "yes" если в названии белка встречается слово hypothetical и "",т.е. ничего, если это слово не встречается
- (Найти (Find) и ЕСЛИОШИБКА (ifferr) )
4.4.5 Логические Объясните принимающему как работают формулы, стоящие в колонках pr11-3 ведомости.
4.5.1 Текстовые операции; директория strains; страница short_names) Дан файл со списком штаммов бактерий. Добавьте колонку сокращенных названий видов. Формат видового названия: <Первая буква рода>. <вид>. Например, из "Escherihia coli K12" надо получить "E. coli" (левый символ, найти, длина).
4.5.2 Текстовые операции; директория protein2column; страница aa_per_column. Дана последовательность белка. Приведите ее к виду: в A1 первая буква, в A2 вторая, в A3 третья и т.д. последовательность по одной букве в ячейке. Из
MTGSWTTF
должно получиться
M T G S W T T F
(номер строки, выбор символа из текста)
5. Адресация и распространение адресов 8. Удобности
Устный ответ на примере import.txt или любого другого
- адрес ячейки, строки, столбца, прямоугольного фрагмента
- способы выделения диапазона ячеек
- способы распространения
- что делают команды CTRL-D и CTRL-R
- CTRL плюс стрелочки
- маленький квадратик в правом нижнем углу ячейки
- замораживание адресов
- распространить формулу в новой колонке до конца заполненной части таблицы
- CTRL-Z
- CTRL-F и CTRL-H
- CTRL-A, CTRL-C, CTRL-X, CTRL-V
6. Связь таблиц
- 6.1 ВПР (VLOOKUP) - из пр11-1
6.2 (директория three2one; страница three2one)Дана последовательность белка в трехбуквенном коде. Создайте последовательность в однобуквенном коде, пользуясь таблицей перекодировки.
* СТРОКА (RAW), СТОЛБЕЦ (COLUMN), ИНДЕКС (INDEX) * ДЛСТР (LEN)
5 дек. На коллоквиуме для зачета умения можно предъявить выполненное упражнение (-я) из соответствующего раздела.(можно своё). Иначе - будете выполнять одно из упражнений в классе.
Веса упражнений см в ведомости.