Kodomo

Пользователь

Учебная страница курса биоинформатики,
год поступления 2025

Домашнее задание к практикуму 8

Срок выполнения без штрафа — утро 31 октября, со штрафом 0,5 балла — утро 7 ноября. Записывайтесь в очередь, номер практикума — 8_home. Для зачёта по этому практикуму достаточно заготовки мини-обзора с заглавиями разделов и написанным введением (задание 1), плюс книга (или книги) в Google sheets с по крайней мере двумя пунктами из задания 2. На всё нужны ссылки с wiki, оформленные так, чтобы было понятно, по какой ссылке что можно найти. Книги и документ должны быть открыты на чтение по ссылке.

1. Документ мини-обзора и введение к мини-обзору

Что нужно сделать:

  1. Создайте Google Doc (текстовый документ) для мини-обзора о вашей бактерии или археи, её генома и протеома. Имя документа: xxxxxxx-minireview, вместо xxxxxxx подставьте свою фамилию. Документ сделайте доступным для комментирования по ссылке (то есть всем, у кого есть ссылка) и поставьте ссылку на него на свою wiki-страницу. Документ пишется либо по-русски, либо по-английски (последнее — только если уверены в своём уровне!). В документе, минимально, необходимо написать:

    1. Название обзора (потом может быть скорректировано)
    2. Автор (имя и фамилия, соавторство не допускается)
    3. Название первого раздела Введение (Introduction, если пишете обзор на английском)

    4. Во "Введении" — те сведения о бактерии, которые успеете найти. В частности, стоит вставить фразу о таксономической принадлежности бактерии или археи: вид, род, семейство, класс (можно и полную таксономию привести). Если будете приводить какую-то нетривиальную информацию, ставьте ссылки на её источник, в виде номеров списка литературы
      Информацию о таксономии ищите в NCBI Taxonomy, прочие сведения — в Интернете, рекомендуем Google scholar

    5. Название второго раздела Методы (Methods). Его вы заполните потом.

    6. Название третьего раздела Результаты (Results). Напишите заголовок подраздела примерно такой: "Длины белков, закодированных в геноме бактерии/археи такой-то". Сюда необходимо вставить гистограмму длин белков, правильно оформить к ней подпись и написать небольшой сопроводительный текст (о том, что по этой гистограмме видно).

    7. Подзаголовок Список литературы. Поместите в него сведения об источниках информации, приведённой во введении. Потом будете дополнять его. Обращайте внимание на то, как оформлены ссылки в реальных статьях (автор, название, журнал, номер) и старайтесь следовать какому-либо стилю оформления.

Шаблоны научных статей

  1. образцы оформления научных текстов из разных журналов. Рекомендуется ориентироваться на какой-нибудь из них: порядок и форматирование разделов, оформление таблиц, рисунков, списка литературы и ссылок на литературу. Другие образцы можно найти на сайтах журналов "BMC Bioinformatics", "Journal of Computational Biology", "PLoS Computational Biology", "Briefings in Bioinformatics", ...

  2. Можно даже скопировать выбранный образец в Google doc xxxxxxx-minireview. Оставить только заголовки и вписывать свои тексты и результаты по мере готовности. Это не обязательно

2. Задания для выбора студентом, по темам мини-обзора

В рамках мини-обзора вам необходимо будет придумать минимум одну задачу самому и выполнить минимум три задания (включая обязательное — гистограмму длину белков). Второе или третье задание может соответствовать придуманной вами задаче (что будет поощряться дополнительными баллами), но если его сложно выполнить известными вам методами, то можно взять оба задания из списка ниже.

Описание вашей идеи и результатов выполнения хотя бы трёх (включая обязательное — гистограмму длин белков) заданий в мини-обзоре будет обязательно для получения зачета по блоку 5. Мини-обзор должен быть готов не позже 8 декабря, чтобы 12 декабря вы могли его "защитить" в беседе с преподавателем. Мы напомним вам об этом за пару недель.

Выполнение хотя бы двух (включая обязательное) из сформулированных ниже заданий в ЭТ необходимо для зачёта по практикуму 8; другие задания — на выбор студента. В скобках — рекомендуемое название листа из книги с дополнительными материалами.

  1. Обязательное (гистограмма длин белков),
  2. (per-replicones) Составьте таблицу числа генов белков и генов разных типов РНК для каждого репликона (репликон указан в столбце chromosome таблицы особенностей)

  3. (inter_cds_intervals-hist) Постройте гистограмму расстояний между последовательными кодирующими последовательностями (CDS) на плюс-цепи самой большой хромосомы. В этом задании просто игнорируйте все CDS на минус-цепи и гены РНК, то есть за расстояние считайте число пар нуклеотидов между последним нуклеотидом CDS на плюс-цепи и первым нуклеотидом следующего CDS на той же цепи (даже если между ними есть CDS на минус-цепи). Для мини-обзора есть простор для расширения и нетривиального анализа.

  4. (intersecting_cds-hist) Выберите кодирующие последовательности (CDS) на плюс-цепи самой большой хромосомы такие, которые пересекаются со следующей CDS на плюс-цепи (т.е. cds_stop ≥ next_cds_start) и вычислите intrsect_len (число нуклеотидов в пересечении). Постройте гистограмму длин пересечений. Для мини-обзора есть простор для расширения и нетривиального анализа (возможно получение маленького нового для науки результата).

  5. (operones; технически не просто в ЭТ, можно сделать потом средствами Python). Предскажите не менее трёх оперонов в геноме выбранной бактерии или археи.

  6. (start_codons, средствами bash по файлу "*cds_from_genomic.fna" с импортом результата в ЭТ, см. ниже). Определите все старт-кодоны (первые кодоны) в кодирующих последовательностях (CDS) и вычислите, сколько раз встречается каждый старт-кодон, отдельно во всех CDS, псевдогенах и "нормальных" генах.

  7. (stop_codons; но технически не просто в ЭТ, лучше средствами Python). Определите все стоп кодоны в кодирующих последовательностях (CDS) и вычислите, сколько раз встречается каждый стоп-кодон. Желательно тоже отдельно для псевдогенов и нормальных генов.

  8. (gc_hist) Гистограмма GC% по CDS

  9. Исследование состава нуклеотидов A, T, G, C по репликонам (средствами Python или bash)
  10. Исследование частоты динуклеотидов по репликонам. Динуклеотид — это два нуклеотида подряд.
  11. Сравнение с геномами других штаммов того же вида или рода
  12. (percents_of_length) Создайте таблицу процентов длины, занятой генами белков, генами РНК, псевдогенами и межгенными промежутками, для каждого репликона.

  13. (neirbouring_cds) Создайте таблицу 3✕3, первая строка — с заголовками столбцов, первый столбец — с названиями строк, а в четырёх ячейках — числа:

    • CDS на плюс цепи, следующих непосредственно за CDS тоже на плюс-цепи
    • CDS на плюс цепи, следующих непосредственно за CDS на минус-цепи
    • CDS на минус цепи, следующих непосредственно за CDS на плюс-цепи
    • CDS на минус цепи, следующих непосредственно за CDS тоже на минус-цепи

(в простейшем варианте можно просто проанализировать столбец "strand" для CDS, с учётом хромосомы; более правильный и сложный вариант предусматривает проверку того, что между CDS не вклинились гены РНК или псевдогены)


Про вычисление частот стартовых кодонов

Создание и импорт файлов с частотами кодонов

С помощью конвейеров на bash создайте два файла: (1) файл, в каждой строке которого содержится кодон (тройка нуклеотидов), который встретились в начале какого либо CDS вашего прокариота, а после него — число CDS, в начале которых встретился этот кодон; (2) то же, но только для CDS-псевдогенов, то есть тех, в описании которых есть подстрока "pseudo=true". См. инструкцию.

Вычисление частот для "нормальных" генов

Заведите на Google sheets книгу "Start codons" и на два листа этой книги импортируйте эти файлы как таблицы (в первой колонке кодоны, во второй числа). Назовите листы латинскими буквами без пробелов (например, "cds_all" и "cds_pseudo"). Добавьте заголовки столбцов.

В книге Start_codons заведите новый лист "cds_regular". Первый столбец озаглавьте "Codons" и поместите на него все возможные кодоны. Чтобы не набирать все 64 варианта руками, можно воспользоваться конвейером:

 echo {A..D}{A..D}{A..D} | tr 'BD ' 'GT\n' > codons.txt

и затем импортировать файл codons.txt. Второй столбец озаглавьте "All CDS" и заполните функцией VLOOKUP, которая переносит значения для соответствующих кодонов с листа cds_all. Третий столбец озаглавьте "Pseudo CDS" и заполните такими же значениями для псевдогенов. Наконец, в четвёртом столбце "Normal CDS" вычислите разности между значениями второго и третьего столбца (это и будут количества старт-кодонов в нормальных CDS, не псевдогенах). Отсортируйте лист по убыванию чисел в четвёртом столбце.

Весьма вероятно, что каких-то кодонов не будет на одном или обоих первых листах, в этом случае VLOOKUP выдаст ошибку в соответствующих ячейках. Чтобы эти ошибки не портили впечатление, можно воспользоваться функцией IFERROR, попросив вставлять 0 в случае отсутствия соответствующего кодона.

На свою страницу wiki поместите надлежащим образом оформленную ссылку на книгу.

2025/1/pr8 (последним исправлял пользователь sas 2025-10-28 13:06:52)