Учебная страница курса биоинформатики,
год поступления 2019
Инструкции по выполнению зачётных заданий блока 3
Имеется сайт с инструкциями по Excel планета Excel. Но уж очень много всего...
В нашей инструкции см. основные действия: импорт данных, выделение, удаление и вставка строк и столбцов, переход к краю заполненного диапазона, поиск и замена, ввод формул, функция ВПР (VLOOKUP), форматирование ячеек, вставка сводной таблицы, сохранение работы.
Соответствие между английскими и русскими названиями команд Excel
Какие файлы надо сделать доступными для проверки
XXXXXXX замените на вашу фамилию, написанную латинскими буквами
- Файл XXXXXXX_review.pdf с миниобзором протеома бактерии
- Файл XXXXXXX_suppl.xlsx с сопроводительными материалами к обзору
- Файл XXXXXXX_exercises.xlsx c упражнениями, демонстрирующими умения, которые не были использованы при подготовке отчета.
Как сделать зачётные файлы доступными для проверки
На вашей wiki странице сделайте подстраницу /block3.
На подстранице поместите ссылки на все файлы для проверки. Формат ссылки [[адрес|что за файл]].
Примеры ссылок. Можете проверить как они работают на моей wiki странице.
1) [[https://drive.google.com/file/d/1OTgpx15NF-oK_5PnZoPams0ajZyl3K27/view?usp=sharing| Программа конференции MCCMB'19]] 2) [[https://docs.google.com/spreadsheets/d/1uE_2WVSoEZjDsFyCaxF0gQi69GkURyCFxe89UUvAKF8/edit#gid=0&fvid=1237299542| хромосомная таблица]] 3) [[https://kodomo.fbb.msu.ru/~aba/term1/akadem1_1sem.docx|список студентов набора y19]]
Можно поставить
(способ 1) ссылки на адреса документов в вашем эккаунте в Google
- зайдите в Google Drive
- создайте новую директорию (folder) для документов
установите права на директорию такие: Share => Advanced => выберите Anyone who has link => Done(потом в Sharing должно быть видно Anyone with link Can view
в эту директорию загрузите файлы, например XXXXXXX_review.pdf, XXXXXX_suppl.xlsx, XXXXXXX_exercises.xlsx (New => File upload) (пример 1)
- или создайте в этой директории, или переместите в нее готовые, google sheets (пример 2)
- адреса этих файлов или документов google приведите на своей wiki странице (см. выше)
(способ 2) ссылки на адреса файлов в вашем эккаунте на kodomo
- в своей корневой директории на kodomo создайте поддиректорию public_html (такую, и только такую)
- дайте права на ИСПОЛНЕНИЕ директории всем
- в public_html создайте поддиректорию term1
- дайте права на ИСПОЛНЕНИЕ term1 всем
- скопируйте нужные файлы в эту поддиректорию term1
- веб адреса этих файлов выглядят, как в примере 3. aba надо заменить на ваше пользовательское имя, тильду оставить
- убедитесь, что файлы открыты на чтение всем
- убедитесь, что ссылки работают
Открою секрет: public_html - единственная ваша директория, которая может быть видна в интернет. Ее можно использовать только в учебных целях. Во втором семестре объяснят как именно использовать. Пока не следует делать в public_html веб страницы, даже если умеете. Дождитесь второго семестра.
Как скачать хромосомную таблицу своей бактерии или археи
Ниже стрелочка "→" значит переход по ссылке.
- Найдите базу данных Genome на сайте NCBI (Google: NCBI Genome) → Browse by organism. Введите название вашей бактерии или археи (напр., Bacillus subtilis) → Search.
- Если полученный список содержит более одной строчки, то выберите ту, в которой в колонке Level стоит полностью черный кружок.
- В колонке FTP пройдите по ссылке, помеченной буквой G или синим ромбиком. Попадаете в директорию с файлами, относящимися к вашему геному.
Запасной вариант. Найти строчку вида Assembly: GCA_000767275.3 ASM76727v3 и из нее составить адрес так: ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCA/000/767/275/ там найти нужную директорию, после чего перейти к п. 4.
- Вам нужно скачать и разархивировать файл feature_table.txt.gz.
Импортируйте файл в Excel (см. инструкцию)
- Назовите страницу chr_table
- Сохраните файл в формате Excel (.xlsx)
Подсказка по превращению хромосомной таблицы в плоскую таблицу генов
Хромосомная таблица содержит два вида строк (что неудобно, но тут уж ничего не поделаешь)
Строки gene, они то нам и нужны. Строка, следующая за строкой gene, это:
либо строка CDS, что значит CoDing Sequence, последовательность, кодирующая белок
- либо строка tRNA, rRNA и др. РНК
Эту вторую строку буду называть gene2, будь это CDS или tRNA и т.д. Информацию из этой строки тоже надо привязать к гену.
Строка gene и следующая за ней строка gene2 имеют один и тот же идентификатор locus_tag. Мы используем это.
Предлагаю поступить так.
- Создать страницу genes
- На странице chr_table с помощью фильтра (меню данные) выделить только строки gene
- Скопировать видимую часть таблицы (включая заголовки) и вставить на страницу genes
- Создать страницу gene2 и вставить в нее все строки, кроме строк gene
- Для того чтобы переносить данные из gene2 в genes надо в gene2 общий идентификатор locus_tag поставить в первую колонку.Сделайте это.
- Используйте команду ВПР (VLOOKUP) для перенесения данных в новые колонки таблицы genes.
- первый аргумент — ключ locus_tag из таблицы genes, который надо искать в таблице gene2
- второй аргумент — вся таблица gene2, начиная от колонки с locus_tag; координаты таблиц должны быть указаны, например, так $A$2:$V$4596, или можно указать только столбцы, например так $A:$V
- третий аргумент — номер колонки в таблице gene2, из которой брать данные; колонка locus_tag имеет номер 1, следующая 2 и т.д.
- четвертый аргумент — ЛОЖЬ (False); можно поставить 0, т.к. как логическая переменная 0 = ЛОЖЬ
- расставьте доллары перед адресами аргументов так, чтобы формула распространялась вниз и направо правильно.
[для смышлёных: на месте третьего аргумента можно поставить команду СТОЛБЕЦ(ячейка), ячейка должна быть такой, чтобы СТОЛБЕЦ() имел правильное числовое значение и правильно модифицировался при распространении формулы вправо]
- Если есть гены без locus_tag, придумайте, что с ними делать (и обязательно опишите это в отчёте): можно выбросить, можно сохранить на отдельном листе, можно придумать им собственные уникальные идентификаторы (легко отличимые от locus_tag), ...
- Проверьте, что все получилось
- Запишите следующую информацию, которую нужно включить в раздел "Материалы и методы":
- assembly
- genomic_accession; все, если есть разные ДНК в таблице; в этом случае укажите что это за ДНК — из колонок seq_type и chromosome страницы chr_table;
- Приведите таблицу в подобающий вид. Удалите пустые колонки, колонки, в которых значения во всех строках повторяют значения из другой колонки (из повторяющихся колонок оставьте одну). Переставьте колонки в удобном порядке. По моему мнению нужно оставить такие колонки:
- locus_tag как основной идентификатор строки
- class
- feature
- genomic_accession (идентификатор ДНК — на случай, если в геноме две или более молекул ДНК)
- start
- end
- strand
- product_accession (из gene2)
- name (из gene2)
- attributes (из gene2)
- Отсортируйте строки по genomic_accession, затем по возрастанию координаты гена start.
- Приведите таблицу в удобный для рассмотрения вид.
- Сохраните формулу как текст в примечании к ячейке из заголовка
- Убейте формулы, оставьте значения. Ctrl+A, Ctrl+C, щёлкаете правой кнопкой мыши в левую верхнюю ячейку, Специальная вставка (Paste specieal), вставить значения (Values).
Если все сделано правильно, сохраните для раздела Материалы и методы все возможности Excel, которые использовали: фильтр, сортировка, связь таблиц, оформление простой таблицы, адресация с использованием $, распространение формул, что еще? Они будут зачтены, если всё сделано правильно.
(*) Как скачать дополнительные данные о белках
Банк Uniprot (https://www.uniprot.org/) — основной банк последовательностей белков
- Поиск по протеомам (Proteomes)
- Введите в окошко для поиска название вашего организма. Поиск
Если нет находки — вам не повезло (:. Мы не проверяли все выданные вам организмы.
- Если находки есть, щелкаете по Proteom ID вашего организма
- Далее по ссылке UniProtKB под Map to. Получаете список БЕЛКОВ протеома.
По ссылке Columns надо добавить или убрать колонки таблицы. Прежде всего добавить первой колонкой Gene names (ordered locus ) => save и проверьте, что значения в этой колонке - такие же, как в вашей хромосомной таблице. Если, то можно добавьте такие колонки:
- допишу позже
- Потом download, формат tab-separated и далее методами Excel можно соединить дополнительные данные из Uniprot с вашей хромосомной таблицей.