Учебная страница курса биоинформатики,
год поступления 2024
Домашнее задание к практикуму 8
Срок выполнения без штрафа — утро 1 ноября, со штрафом 0,5 балла — утро 8 ноября. Записывайтесь в очередь, номер практикума — 8_home. Для зачёта по этому практикуму достаточно заготовки мини-обзора с заглавиями разделов и несколькими фразами во введении (задание 1), плюс книга (или книги) в Google sheets с по крайней мере двумя пунктами из задания 2. На всё нужны ссылки с wiki, оформленные так, чтобы было понятно, по какой ссылке что можно найти. Книги и документ должны быть открыты на чтение по ссылке.
1. Документ мини-обзора и введение к мини-обзору
Что нужно сделать:
Создайте Google Doc (текстовый документ) для мини-обзора о вашей бактерии или археи, её генома и протеома. Имя документа: xxxxxxx-minireview, вместо xxxxxxx подставьте свою фамилию. Документ сделайте доступным для комментирования по ссылке (то есть всем, у кого есть ссылка) и поставьте ссылку на него на свою wiki-страницу. Документ пишется либо по-русски, либо по-английски (последнее — только если уверены в своём уровне!). В документе, минимально, необходимо написать:
- Название обзора (потом может быть скорректировано)
- Автор (имя и фамилия, соавторство не допускается)
Название первого раздела Введение (Introduction если пишете обзор на английском)
(*) Во "Введении" — фразу о таксономической принадлежности бактерии или археи: вид, род, семейство, класс (можно и полную таксономию привести)
Название второго раздела Методы (Methods). Его вы заполните потом.
Название третьего раздела Результаты (Results). Напишите заголовок подраздела примерно такой: "Длины белков, закодированных в геноме бактерии/археи такой-то". Сюда необходимо вставить гистограмму длин белков, правильно оформить к ней подпись и написать небольшой сопроводительный текст (о том, что по этой гистограмме видно).
Шаблоны научных статей
образцы оформления научных текстов из разных журналов. Рекомендуется ориентироваться на какой-нибудь из них: порядок и форматирование разделов, оформление таблиц, рисунков, списка литературы и ссылок на литературу. Другие образцы можно найти на сайтах журналов:"BMC Bioinformatics", "Journal of Computational Biology", "PLoS Computational Biology", "Briefings in Bioinformatics", ...
Можно даже скопировать выбранный образец в Google doc xxxxxxx-minireview. Оставить только заголовки и вписывать свои тексты и результаты по мере готовности. Это не обязательно
2. Задания для выбора студентом, по темам мини-обзора
В рамках мини-обзора вам необходимо будет придумать минимум одну задачу самому и выполнить минимум три задания (включая обязательное - гистограмму длину белков). Второе или третье задание может соответствовать придуманной вами задаче (что будет поощряться дополнительными баллами), но если его сложно выполнить известными вам методами, то можно взять оба задания из списка ниже.
Описание вашей идеи и результатов выполнения хотя бы трёх (включая обязательное — гистограмму длин белков) заданий в мини-обзоре будет обязательно для получения зачета по блоку 5. Мини-обзор должен быть готов не позже 9 декабря, чтобы 13 декабря вы могли его "защитить" в беседе с преподавателем. Мы напомним вам об этом за пару недель.
Выполнение хотя бы двух (включая обязательное) из сформулированных ниже заданий в ЭТ необходимо для зачёта по практикуму 8; другие задания — на выбор студента. В скобках — рекомендуемое название листа из книги с дополнительными материалами.
- Обязательное (гистограмма длин белков),
(per-replicones) Составьте таблицу числа генов белков и генов разных типов РНК для каждого репликона (репликон указан в столбце chromosome таблицы особенностей)
(inter_cds_intervals-hist) Постройте гистограмму расстояний между последовательными кодирующими последовательностями (CDS) на плюс-цепи самой большой хромосомы. В этом задании просто игнорируйте все CDS на минус-цепи и гены РНК, то есть за расстояние считайте число пар нуклеотидов между последним нуклеотидом CDS на плюс-цепи и первым нуклеотидом следующего CDS на той же цепи (даже если между ними есть CDS на минус-цепи). Для мини-обзора есть простор для расширения и нетривиального анализа.
(intersecting_cds-hist) Выберите кодирующие последовательности (CDS) на плюс-цепи самой большой хромосомы такие, которые пересекаются со следующей CDS на плюс-цепи (т.е. cds_stop ≥ next_cds_start) и вычислите intrsect_len (число нуклеотидов в пересечении). Постройте гистограмму длин пересечений. Для мини-обзора есть простор для расширения и нетривиального анализа (возможно получение маленького нового для науки результата).
(operones; технически не просто в ЭТ, можно сделать потом средствами Python). Предскажите не менее трёх оперонов в геноме выбранной бактерии или археи.
(start_codons, средствами bash по файлу "*cds_from_genomic.fna" с импортом результата в ЭТ, см. ниже). Определите все старт-кодоны (первые кодоны) в кодирующих последовательностях (CDS) и вычислите, сколько раз встречается каждый старт-кодон, отдельно во всех CDS, псевдогенах и "нормальных" генах.
(stop_codons; но технически не просто в ЭТ, лучше средствами Python). Определите все стоп кодоны в кодирующих последовательностях (CDS) и вычислите, сколько раз встречается каждый стоп-кодон. Желательно тоже отдельно для псевдогенов и нормальных генов.
Гистограмма GC% по CDS (gc_hist)
- Исследование состава нуклеотидов A, T, G, C по репликонам (средствами Python или bash)
- Исследование частоты динуклеотидов по репликонам. Динуклеотид — это два нуклеотида подряд.
- Сравнение с геномами других штаммов того же вида или рода
(percents_of_length) Создайте таблицу процентов длины, занятой генами белков, генами РНК, псевдогенами и межгенными промежутками, для каждого репликона.
(neirbouring_cds) Создайте таблицу 3✕3, первая строка — с заголовками столбцов, первый столбец — с названиями строк, а в четырёх ячейках — числа:
- CDS на плюс цепи, следующих непосредственно за CDS тоже на плюс-цепи
- CDS на плюс цепи, следующих непосредственно за CDS на минус-цепи
- CDS на минус цепи, следующих непосредственно за CDS на плюс-цепи
CDS на минус цепи, следующих непосредственно за CDS тоже на минус-цепи
(в простейшем варианте можно просто проанализировать столбец "strand" для CDS, с учётом хромосомы; более правильный и сложный вариант предусматривает проверку того, что между CDS не вклинились гены РНК или псевдогены)
Про вычисление частот стартовых кодонов
Создание и импорт файлов с частотами кодонов
С помощью конвейеров на bash создайте два файла: (1) файл, в каждой строке которого содержится кодон (тройка нуклеотидов), который встретились в начале какого либо CDS вашего прокариота, а после него — число CDS, в начале которых встретился этот кодон; (2) то же, но только для CDS-псевдогенов, то есть тех, в описании которых есть подстрока "pseudo=true". См. инструкцию.
Вычисление частот для "нормальных" генов
Заведите на Google sheets книгу "Start codons" и на два листа этой книги импортируйте эти файлы как таблицы (в первой колонке кодоны, во второй числа). Назовите листы латинскими буквами без пробелов (например, "cds_all" и "cds_pseudo"). Добавьте заголовки столбцов.
В книге Start_codons заведите новый лист "cds_regular". Первый столбец озаглавьте "Codons" и поместите на него все возможные кодоны. Чтобы не набирать все 64 варианта руками, можно воспользоваться конвейером:
echo {A..D}{A..D}{A..D} | tr 'BD ' 'GT\n' > codons.txt
и затем импортировать файл codons.txt. Второй столбец озаглавьте "All CDS" и заполните функцией VLOOKUP, которая переносит значения для соответствующих кодонов с листа cds_all. Третий столбец озаглавьте "Pseudo CDS" и заполните такими же значениями для псевдогенов. Наконец, в четвёртом столбце "Normal CDS" вычислите разности между значениями второго и третьего столбца (это и будут количества старт-кодонов в нормальных CDS, не псевдогенах). Отсортируйте лист по убыванию чисел в четвёртом столбце.
Весьма вероятно, что каких-то кодонов не будет на одном или обоих первых листах, в этом случае VLOOKUP выдаст ошибку в соответствующих ячейках. Тогда можно поступить следующим образом: (1) завести два "технических" столбца (пусть это будут столбцы E и F); (2) в эти столбцы вписать формулы для количеств кодонов на листах cds_all и cds_pseudo, например, для E2 и F2 формулы такие:
=COUNTIF(A2;cds_all!A:A) =COUNTIF(A2;cds_pseudo!A:A)
Теперь надо поменять формулы в столбцах B и C, чтобы VLOOKUP обращался к соответствующему листу только если на этом листе соответствующий кодон присутствует, а если не присутствует, чтобы выдавался 0. Например, в B2 формула может выглядеть так (вместо многоточия — прежние аргументы VLOOKUP):
=IF(E2=0;0;VLOOKUP(...))
Ещё лучше не заводить столбцы E и F, а вставить COUNTIF в первый аргумент, стоит постараться это сделать. Наконец, можно воспользоваться функцией IFERROR.
На свою страницу wiki поместите надлежащим образом оформленную ссылку на книгу.