Учебная страница курса биоинформатики,
год поступления 2023
Подсказки по домашним заданиям
6 ноября 2023 ААл Исправил опечатки и неточности в подсказках ниже.
- Задания практикума 8 выполняйте в файле в google sheet xxxxxxx-genome (а не в google sheet xxxxxxx-minireview). Если выполнили в google sheet xxxxxxx-minireview, то менять не надо, но ссылки на вашей wiki странице должны быть на документ для проверки - чтобы проверяющий не запутался.
- Написал подсказки по выполнению задания 2 - создать google doc xxxxxxx-minireview
- Дописал подсказу по подсчёту частоты 1х кодонов в кодирующих последовательностях
—
- Построить гистограмму числа аминокислотных остатков (aa) в белках вашей бактерии или археи. Источник всех данных - на странице protein_cds
- В google sheet xxxxxxx-genome создайте страницу protein_len-hist для гистограммы
подсказки из лекции какими командами построить гистограмму и изобразить её столбиками
- (xxxxxxx-minireview, Google Doc) Создайте Google Doc (текстовый документ) для мини-обзора.
Этот документ предназначен для чистовой версии мини-обзора. Рекомендуется сразу оформлять его в чистовом виде, т.е. удобно для чтения, понятно и красиво (!); с краткими объяснениями таблиц, рисунков и др.
образцы оформления научных текстов из разных журналов. Рекомендуется ориентироваться на какой-нибудь из них: порядок и форматирование разделов, оформление таблиц, рисунков, списка литературы и ссылок на литературу. Другие образцы можно найти на сайтах журналов:"BMC Bioinformatics", "Journal of Computational Biology", "PLoS Computational Biology", "Briefings in Bioinformatics", ...
Можно даже скопировать выбранный образец в Google doc xxxxxxx-minireview. Оставить только заголовки и вписывать свои тексты и результаты по мере готовности. Это не обязательно
- (Одно из заданий по темам мини-обзора, перечисленных ниже.)Задание 1 идет как задание в классе. Ниже идёт нумерация по пунктам 1 = 3.1 (классное), 2 = 3.2 и т.д.
—
- (8_class) Построить гистограмму длин белков (числа аминокислотных остатков aa) в белках вашей бактерии или археи.
- (per-replicones) Составьте таблицу числа генов белков и генов РНК разных типов для каждого репликона из выбранного генома.
- Идентификатор репликона genomic_accession. Составьте список репликонов. Источник данных - первичная страница feature_table.
- Скачайте колонку genomic_accession в столбец A на стр per-replicon.
- Правее добавьте колонки seq_type и chromosome в колонки B и C
Выделите колонки A-C и удалите повторяющиеся значения: меню DATA => Data clean-up => remove duplicates
- Аналогично, на странице tmp составьте список значений в колонке # feature. Удалите из него значение gene (чтобы не дублировать данные). Остаются значения CDS для белков и РНК разных типов.
- СТОЛБЕЦ значений #feature скопируйте в 1ю СТРОКУ страницы per-replicon начиная с ячейки D1 !
- Выделите нужный участок столбца, Ctrl+C
- Курсор в ячейку D1 страницы per-replicon
В меню EDIt => Paste special => Transposed
- В получившейся таблице: строки - репликоны (может быть и один репликон - хромосома), столбцы - features, CDS и типы РНК. В ячейках рассчитайте число соответсвующих features в соответствующих репликонах.
- В левую верхнюю ячейку вставьте функцию =countifs( ) рус. счётеслимн( ). Будьте внимательны с тем, что в аадресах следует заморозить долларом $. Два условия. Первое в колонке с идентификатором репликона (genomic_accession) должно стоять значение из колонки A; второе в колонке #features должно стоять значение из первой строки
- Пример из моего файла. В ячейку D1 внёс такую функцию =СЧЁТЕСЛИМН(feature_table!$G:$G,$A2,feature_table!$A:$A,D$1)
Эту функцию следует распространить направо и вниз. Таблица заполнена. см. подсказки стр.3
- Идентификатор репликона genomic_accession. Составьте список репликонов. Источник данных - первичная страница feature_table.
- (inter_cds-hist)Постройте гистограмму расстояний между последовательными кодирующими последовательностями (CDS) на + цепочке самой большой хромосомы. Данные следует брать из страницы proteins_cds. Важно сохранить сортировку строк по начальной координате гена белка (CDS)
- Создайте страницу inter_cds_intervals-hist.
- Скопируйте на страницу tmp со страницы proteins_cds только нужные строчки - из нужного репликона и на нужной цепочке ДНК. Используйте фильтры.
- В новой колонке для каждого гена внесите расстояние до следующего.
- На стр. inter_cds_intervals-hist постройте гистограмму, следуя инструкциям для задания 1.
- (intersecting_cds-hist) Выберите кодирующие последовательности (CDS) на + цепочке самой большой хромосомы такие, которые пересекаются со следующей CDS на той же цепочке. Данные следует брать из страницы proteins_cds. Важно сохранить сортировку строк по начальной координате гена белка (CDS)
- Создайте страницу intersecting_cds-hist
- Скопируйте на страницу tmp со страницы proteins_cds только нужные строчки - из нужного репликона и на нужной цепочке ДНК. Используйте фильтры.
- В новой колонке пометьте как-нибудь (например,"да") гены пересекающиеся со следующим или с предыдущим.
- Удалите гены, не пересекающиеся с другими, используйте фильтр и delete
- В новой колонке укажите размер пересечения гена со следующим.
(operones)не советую браться!Предскажите не менее 3х оперонов в геноме выбранной бактерии или археи. Опероны предсказывают по геному используя три критерия
- Создайте страницу operones. Нужные данные лежат на странице protein_cds
- Скопируйте на страницу operones cds на + цепи и оставьте только нужные колонки из protein_cds
- идентификатор белка
- назвние белка
- код белка
- координаты: start cds, stop cds, цепочка ДНК
- Критерий 1. CDS белков оперона идут подряд на одной цепочке ДНК
- Критерий 1. Межгенные промежутки между CDS одного оперона невелики, ограничены константой. Готовя задание я пробовал разные пороги, остановился на 50 пн (пар нуклеотидов). Пункты a и b выполнимы в Google Sheets. С помощью команды IF(OR(AND(условие1,условие2,условие3),AND(условие1',условие2',условие3')),"y","").
- условие1 - цепочка гена равна "+"
- условие2 - цепочка следующего гена равна "+"
- условие3 - межгенный промежуток до следующего гена менее порога, которые лежит в фиксированной ячейке
- условия со штрихами - те же самые, но по отношению к предыдущему гену.
- cds белков, кандидатов на принадлежность одному оперону помечены в соответствующей колонке идущими подряд "y"
- Поняли почему (*) и не советую браться! Впрочем, выполнение задания до этого места даёт ЗАЧЁТ этого задания.
- Критерий 2. Если среди cds предсказанного оперона есть идущие подряд гены, которые по названиям или по коротким кодам генов имеют что-то общее, то их можно отнести к одному оперону с большей уверенностью. Их стоит указать как ответ.
- Критерий 3. Сравнение с оперонами в родственной бактерии или археи. Это не для ЭТ. В подсказках по мини-обзору напишу об этом. Или спросите меня напрямую в телеграм или на почту.
(start_codons)не советую браться потому, что выполнить это задание с помощью python скрипта проще и логичнее! Определите все старт кодоны (первые кодоны) в кодирующих последовательностях (CDS) и вычислите сколько раз встречается каждый старт кодон
- Создайте Google sheet xxxxxxx-cds, страницу назовите cds
- Скопируйте на страницу cds содержимое текстового файла ..._cds_from_genomic.fna (см. ДЗ 7.2).
получается ерунда - всё в одну колонку, нам нужны: названия последовательностей, начинающиеся с ">" и первая строка последовательности CDS сразу за ней. Пометим их, а остальные строки выкинем!
Вставить колонку слева от колонки A. Выделить колонку, правая кнопка, insert column to the left. (можно через меню Insert => columns => ...left)
- Вставить строку выше первой строки - аналогично. В A1 вставляем название колонки например mark.
В ячейку A2 поставим команду для пометки нужных нам строк: =IF(LEFT(B2,1)=">","Name", IF(LEFT(B1,1)=">","1st_line","")) распространяем формулу до конца таблицы
- Сохраняем как note к ячеке A1 формулу из ячейки A2
Оставляем в колонке значения формулы, а не формулы. Выделить колонку; в меню Edit => Paste special => Values only
- Создаём новую страницу 1st_lines
Ставим фильтр на колонку mark. Выделяем, Data => Filer view => create
- Нажимаем на значок в A1, убираем все значения кроме 1st_line.
- Выделяем их и копируем строки 1st_line на страницу 1st_lines в колонку A.
- Делаем колонку первых кодонов с помощью команды =LEFT(A1,3) в ячейке B1
- Распространяем формулу до конца таблицы. Первые кодоны всех генов найдены.
- Оставляем только значения
- Делаем новый лист count-1st_codons. И по стандарту: копируем колонку 1х кодонов, удаляем дупликаты, используем функцию =countif.