Kodomo

Пользователь

Учебная страница курса биоинформатики,
год поступления 2020

Инструкции по выполнению зачётных заданий блока 3

Всюду где написано Excel вы можете использовать другую электронную таблицу. Рекомендуется, если не Excel, то Google Sheet.

Какие файлы нужны для зачёта

XXXXXXX замените на вашу фамилию, написанную латинскими буквами

  1. Файл XXXXXXX_review.pdf с миниобзором протеома бактерии; pdf делается из Word'а или Google Doc
  2. Файл XXXXXXX_suppl.xlsx с сопроводительными материалами к обзору
  3. Файл XXXXXXX_exercises.xlsx c упражнениями, демонстрирующими умения, которые не были использованы при подготовке отчета.
  4. Файл XXXXXXX_genome.fasta с последовательностью генома

Файлы .xlsx можно заменить на Google Sheet документы с теми же названиями и содержанием.

Как сделать зачётные файлы доступными для проверки

Файл XXXXXXX_genome.fasta должен лежать в вашей директории term1/block3/credits на kodomo

Файлы XXXXXXX_review.pdf, XXXXXXX_suppl.xlsx и XXXXXXX_exercises.xlsx должны быть доступны по ссылке с вашей wiki страницы

На вашей wiki странице сделайте подстраницу /block3.

На подстранице поместите ссылки на эти файлы. Формат ссылки [[адрес|что за файл]].

Примеры ссылок.

1) [[https://drive.google.com/file/d/1OTgpx15NF-oK_5PnZoPams0ajZyl3K27/view?usp=sharing| Программа конференции MCCMB'19]]

2) [[https://docs.google.com/spreadsheets/d/1uE_2WVSoEZjDsFyCaxF0gQi69GkURyCFxe89UUvAKF8/edit#gid=0&fvid=1237299542| хромосомная таблица]]

3) [[https://kodomo.fbb.msu.ru/~aba/term1/akadem1_1sem.docx|список студентов набора y19]]

Можно поставить

Открою секрет: public_html - единственная ваша директория, которая может быть видна в интернет. Ее можно использовать только в учебных целях. Во втором семестре объяснят как именно использовать. Пока не следует делать в public_html веб страницы, даже если умеете. Дождитесь второго семестра.


Помощь по Excel

Имеется сайт с инструкциями по Excel планета Excel. Но уж очень много всего...

В нашей инструкции см. основные действия: импорт данных, выделение, удаление и вставка строк и столбцов, переход к краю заполненного диапазона, поиск и замена, ввод формул, функция ВПР (VLOOKUP), форматирование ячеек, вставка сводной таблицы, сохранение работы.

Соответствие между английскими и русскими названиями команд Excel

Как получить таблицу со списком генов своей бактерии

  1. Откройте директорию базы данных с файлами, относящимися к вашему геному. Адрес указан в таблице
  2. Вам нужно скачать и разархивировать файл ...._feature_table.txt.gz.
  3. Импортируйте файл в Excel (см. инструкцию) или Google Sheet

  4. Назовите файл XXXXXXX_suppl.xlsx
  5. Назовите полученную страницу feat_table
  6. Сохраните файл в формате Excel (.xlsx)

Как получить из хромосомной таблицы список генов в виде плоской таблицы

Хромосомная таблица содержит два вида строк (что неудобно, но тут уж ничего не поделаешь)

Строки gene, они то нам и нужны. Строка, следующая за строкой gene, это:

Эту вторую строку буду называть gene2, будь это CDS или tRNA и т.д. Информацию из этой строки тоже надо привязать к гену.

Строка gene и следующая за ней строка gene2 имеют один и тот же идентификатор locus_tag. Мы используем это.

Предлагаю поступить так.

  1. Создать страницу genes
  2. На странице feat_table с помощью фильтра (меню данные) выделить только строки gene
  3. Скопировать видимую часть таблицы (включая заголовки) и вставить на страницу genes
  4. Создать страницу gene2 и вставить в нее все строки, кроме строк gene
  5. Для того чтобы переносить данные из gene2 в genes надо в gene2 общий идентификатор locus_tag поставить в первую колонку. Сделайте это.
  6. Используйте команду ВПР (VLOOKUP) для перенесения данных в новые колонки таблицы genes.
    • первый аргумент — ключ locus_tag из таблицы genes, который надо искать в таблице gene2
    • второй аргумент — вся таблица gene2, начиная от колонки с locus_tag; координаты таблиц должны быть указаны, например, так $A$2:$V$4596, или можно указать только столбцы, например так $A:$V
    • третий аргумент — номер колонки в таблице gene2, из которой брать данные; колонка locus_tag имеет номер 1, следующая 2 и т.д.
    • четвертый аргумент — ЛОЖЬ (False); можно поставить 0, т.к. как логическая переменная 0 = ЛОЖЬ
    • расставьте доллары перед адресами аргументов так, чтобы формула распространялась вниз и направо правильно.

[для смышлёных: на месте третьего аргумента можно поставить команду СТОЛБЕЦ(ячейка), ячейка должна быть такой, чтобы СТОЛБЕЦ() имел правильное числовое значение и правильно модифицировался при распространении формулы вправо]

  1. Если есть гены без locus_tag, придумайте, что с ними делать (и обязательно опишите это в отчёте): можно выбросить, можно сохранить на отдельном листе, можно придумать им собственные уникальные идентификаторы (легко отличимые от locus_tag), ...
  2. Проверьте, что все получилось
  3. Запишите следующую информацию, которую нужно включить в раздел "Материалы и методы":
    • assembly
    • genomic_accession; все, если есть разные ДНК в таблице; в этом случае укажите что это за ДНК — из колонок seq_type и chromosome страницы feat_table;
  4. Приведите таблицу в подобающий вид. Удалите пустые колонки, колонки, в которых значения во всех строках повторяют значения из другой колонки (из повторяющихся колонок оставьте одну). Переставьте колонки в удобном порядке. По моему мнению нужно оставить такие колонки:
    1. locus_tag как основной идентификатор строки
    2. class
    3. feature
    4. genomic_accession (идентификатор ДНК — на случай, если в геноме две или более молекул ДНК)
    5. start
    6. end
    7. strand
    8. product_accession (из gene2)
    9. name (из gene2)
    10. attributes (из gene2)
  5. Отсортируйте строки по genomic_accession, затем по возрастанию координаты гена start.
  6. Приведите таблицу в удобный для рассмотрения вид.
  7. Сохраните формулу как текст в примечании к ячейке из заголовка
  8. Убейте формулы, оставьте значения. Ctrl+A, Ctrl+C, щёлкаете правой кнопкой мыши в левую верхнюю ячейку, Специальная вставка (Paste specieal), вставить значения (Values).

Если все сделано правильно, сохраните для раздела Материалы и методы все возможности Excel, которые использовали: фильтр, сортировка, связь таблиц, оформление простой таблицы, адресация с использованием $, распространение формул, что еще? Они будут зачтены, если всё сделано правильно.

(*) Как скачать дополнительные данные о белках


Помощь по программам пакета EMBOSS

Пакет EMBOSS установлен на kodomo

Поиск паттерна в нуклеотидной последовательности

Паттерн - специальное описание короткой последовательности.

Например, паттерн G-квадруплекса из лекции: GGGN(1,7)GGGN(1,7)GGGN(1,7)GGG

N значит любая буква, N(1,7) значит от одной до семи букв.

Вместо GGG можно написать G(3), что значит три буквы G подряд.

Программа fuzznuc. Ищет встречи паттернов в последовательности

Пример выполнения

fuzznuc  -pattern "GGGN(1,7)GGGN(1,7)GGGN(1,7)GGG"  /home/students/y20/neverov-am/term1/block3/credits/*.fasta results.fuzznuc

После паттерна пишется имя входного файла и имя выходного файла

neverov - студент, вынудивший меня написать эту подсказку ранее, чем я собирался))))

Указание искать паттерны и на прямой и на комплементарной цепочке ДНК пишется так

fuzznuc -complement -pattern "GGGN(1,7)GGGN(1,7)GGGN(1,7)GGG"  /home/students/y20/neverov-am/term1/block3/credits/*.fasta results.fuzznuc