Kodomo

Пользователь

Учебная страница курса биоинформатики,
год поступления 2023

Подсказки по домашним заданиям

6 ноября 2023 ААл Исправил опечатки и неточности в подсказках ниже.

  1. Построить гистограмму числа аминокислотных остатков (aa) в белках вашей бактерии или археи. Источник всех данных - на странице protein_cds
    1. В google sheet xxxxxxx-genome создайте страницу protein_len-hist для гистограммы
    2. подсказки из лекции какими командами построить гистограмму и изобразить её столбиками

  2. (xxxxxxx-minireview, Google Doc) Создайте Google Doc (текстовый документ) для мини-обзора.
    1. Этот документ предназначен для чистовой версии мини-обзора. Рекомендуется сразу оформлять его в чистовом виде, т.е. удобно для чтения, понятно и красиво (!); с краткими объяснениями таблиц, рисунков и др.

    2. образцы оформления научных текстов из разных журналов. Рекомендуется ориентироваться на какой-нибудь из них: порядок и форматирование разделов, оформление таблиц, рисунков, списка литературы и ссылок на литературу. Другие образцы можно найти на сайтах журналов:"BMC Bioinformatics", "Journal of Computational Biology", "PLoS Computational Biology", "Briefings in Bioinformatics", ...

    3. Можно даже скопировать выбранный образец в Google doc xxxxxxx-minireview. Оставить только заголовки и вписывать свои тексты и результаты по мере готовности. Это не обязательно

  3. (Одно из заданий по темам мини-обзора, перечисленных ниже.)Задание 1 идет как задание в классе. Ниже идёт нумерация по пунктам 1 = 3.1 (классное), 2 = 3.2 и т.д.

  1. (8_class) Построить гистограмму длин белков (числа аминокислотных остатков aa) в белках вашей бактерии или археи.
  2. (per-replicones) Составьте таблицу числа генов белков и генов РНК разных типов для каждого репликона из выбранного генома.
    1. Идентификатор репликона genomic_accession. Составьте список репликонов. Источник данных - первичная страница feature_table.
      1. Скачайте колонку genomic_accession в столбец A на стр per-replicon.
      2. Правее добавьте колонки seq_type и chromosome в колонки B и C
      3. Выделите колонки A-C и удалите повторяющиеся значения: меню DATA => Data clean-up => remove duplicates

    2. Аналогично, на странице tmp составьте список значений в колонке # feature. Удалите из него значение gene (чтобы не дублировать данные). Остаются значения CDS для белков и РНК разных типов.
    3. СТОЛБЕЦ значений #feature скопируйте в 1ю СТРОКУ страницы per-replicon начиная с ячейки D1 !
      1. Выделите нужный участок столбца, Ctrl+C
      2. Курсор в ячейку D1 страницы per-replicon
      3. В меню EDIt => Paste special => Transposed

    4. В получившейся таблице: строки - репликоны (может быть и один репликон - хромосома), столбцы - features, CDS и типы РНК. В ячейках рассчитайте число соответсвующих features в соответствующих репликонах.
      1. В левую верхнюю ячейку вставьте функцию =countifs( ) рус. счётеслимн( ). Будьте внимательны с тем, что в аадресах следует заморозить долларом $. Два условия. Первое в колонке с идентификатором репликона (genomic_accession) должно стоять значение из колонки A; второе в колонке #features должно стоять значение из первой строки
      2. Пример из моего файла. В ячейку D1 внёс такую функцию =СЧЁТЕСЛИМН(feature_table!$G:$G,$A2,feature_table!$A:$A,D$1)
      3. Эту функцию следует распространить направо и вниз. Таблица заполнена. см. подсказки стр.3

  3. (inter_cds-hist)Постройте гистограмму расстояний между последовательными кодирующими последовательностями (CDS) на + цепочке самой большой хромосомы. Данные следует брать из страницы proteins_cds. Важно сохранить сортировку строк по начальной координате гена белка (CDS)
    1. Создайте страницу inter_cds_intervals-hist.
    2. Скопируйте на страницу tmp со страницы proteins_cds только нужные строчки - из нужного репликона и на нужной цепочке ДНК. Используйте фильтры.
      1. В новой колонке для каждого гена внесите расстояние до следующего.
    3. На стр. inter_cds_intervals-hist постройте гистограмму, следуя инструкциям для задания 1.
  4. (intersecting_cds-hist) Выберите кодирующие последовательности (CDS) на + цепочке самой большой хромосомы такие, которые пересекаются со следующей CDS на той же цепочке. Данные следует брать из страницы proteins_cds. Важно сохранить сортировку строк по начальной координате гена белка (CDS)
    1. Создайте страницу intersecting_cds-hist
    2. Скопируйте на страницу tmp со страницы proteins_cds только нужные строчки - из нужного репликона и на нужной цепочке ДНК. Используйте фильтры.
      1. В новой колонке пометьте как-нибудь (например,"да") гены пересекающиеся со следующим или с предыдущим.
      2. Удалите гены, не пересекающиеся с другими, используйте фильтр и delete
      3. В новой колонке укажите размер пересечения гена со следующим.
  5. (operones)не советую браться!Предскажите не менее 3х оперонов в геноме выбранной бактерии или археи. Опероны предсказывают по геному используя три критерия

    1. Создайте страницу operones. Нужные данные лежат на странице protein_cds
    2. Скопируйте на страницу operones cds на + цепи и оставьте только нужные колонки из protein_cds
      1. идентификатор белка
      2. назвние белка
      3. код белка
      4. координаты: start cds, stop cds, цепочка ДНК
    3. Критерий 1. CDS белков оперона идут подряд на одной цепочке ДНК
    4. Критерий 1. Межгенные промежутки между CDS одного оперона невелики, ограничены константой. Готовя задание я пробовал разные пороги, остановился на 50 пн (пар нуклеотидов). Пункты a и b выполнимы в Google Sheets. С помощью команды IF(OR(AND(условие1,условие2,условие3),AND(условие1',условие2',условие3')),"y","").
      1. условие1 - цепочка гена равна "+"
      2. условие2 - цепочка следующего гена равна "+"
      3. условие3 - межгенный промежуток до следующего гена менее порога, которые лежит в фиксированной ячейке
      4. условия со штрихами - те же самые, но по отношению к предыдущему гену.
      5. cds белков, кандидатов на принадлежность одному оперону помечены в соответствующей колонке идущими подряд "y"
    5. Поняли почему (*) и не советую браться! Впрочем, выполнение задания до этого места даёт ЗАЧЁТ этого задания.
    6. Критерий 2. Если среди cds предсказанного оперона есть идущие подряд гены, которые по названиям или по коротким кодам генов имеют что-то общее, то их можно отнести к одному оперону с большей уверенностью. Их стоит указать как ответ.
    7. Критерий 3. Сравнение с оперонами в родственной бактерии или археи. Это не для ЭТ. В подсказках по мини-обзору напишу об этом. Или спросите меня напрямую в телеграм или на почту.
  6. (start_codons)не советую браться потому, что выполнить это задание с помощью python скрипта проще и логичнее! Определите все старт кодоны (первые кодоны) в кодирующих последовательностях (CDS) и вычислите сколько раз встречается каждый старт кодон

    1. Создайте Google sheet xxxxxxx-cds, страницу назовите cds
    2. Скопируйте на страницу cds содержимое текстового файла ..._cds_from_genomic.fna (см. ДЗ 7.2).
      1. получается ерунда - всё в одну колонку, нам нужны: названия последовательностей, начинающиеся с ">" и первая строка последовательности CDS сразу за ней. Пометим их, а остальные строки выкинем!

      2. Вставить колонку слева от колонки A. Выделить колонку, правая кнопка, insert column to the left. (можно через меню Insert => columns => ...left)

      3. Вставить строку выше первой строки - аналогично. В A1 вставляем название колонки например mark.
      4. В ячейку A2 поставим команду для пометки нужных нам строк: =IF(LEFT(B2,1)=">","Name", IF(LEFT(B1,1)=">","1st_line","")) распространяем формулу до конца таблицы

      5. Сохраняем как note к ячеке A1 формулу из ячейки A2
      6. Оставляем в колонке значения формулы, а не формулы. Выделить колонку; в меню Edit => Paste special => Values only

      7. Создаём новую страницу 1st_lines
      8. Ставим фильтр на колонку mark. Выделяем, Data => Filer view => create

      9. Нажимаем на значок в A1, убираем все значения кроме 1st_line.
      10. Выделяем их и копируем строки 1st_line на страницу 1st_lines в колонку A.
      11. Делаем колонку первых кодонов с помощью команды =LEFT(A1,3) в ячейке B1
      12. Распространяем формулу до конца таблицы. Первые кодоны всех генов найдены.
      13. Оставляем только значения
      14. Делаем новый лист count-1st_codons. И по стандарту: копируем колонку 1х кодонов, удаляем дупликаты, используем функцию =countif.

2023/1/hints8 (последним исправлял пользователь aba 2023-11-06 16:48:30)