Kodomo

Пользователь

Учебная страница курса биоинформатики,
год поступления 2021

Список возможных тем исследования генома и протеома бактерии или археи

Главное требование к мини-обзору - чтобы он был интересен вам и проверяющему.

Что лучше: (i) выполнить много тем, формально получить требуемые ответы, или (ii) ограничиться одной - двумя сверх 4х, но глубоко разобраться с ними: подумать и узнать чем полезна и как используется тема (литература и интернет, собственные гипотезы). Подход (ii) мне импонирует больше, буду стараться это участь при проверке, оценивая дополнительные действия и привлечение информации из литературы и баз данных. Однако, не исключаю, что при подходе (i) можно заработать больше баллов.

Наука - это про больше думать, технология - это про быстрее и эффективнее делать.

Ни в коем случае не не беритесь за ВСЕ задания! Это опасно для вас и тяжело для проверяющих:)

ААл

Темы

Геном

1. Описать стандартные данные о вашем геном

  1. Число и названия ДНК, составляющих геном
  2. Длина и GC-состав каждой ДНК

2. Описать нуклеотидный состав геномных ДНК

  1. Проверить какие буквы встречаются в последовательности геномной ДНК и сколько раз. Верно ли, что только A, T, G, C?
  2. Верно ли, что число букв A примерно равно числу букв T, а число букв G приблизительно равно числу букв C в последовательности одной цепочки геномной ДНК? (Второе правило Чаргаффа)

3. Анализ статистики k-меров в геноме для одного k

  1. Выберите длину k анализируемых слов. Интересны длины k: 2, 3, 4, ... (до ?)
  2. Вычислите число встреч каждого слова длины k в вашем геноме
  3. Для каждого k-мера вычислите ожидаемое по статистике число его встреч в вашем геноме и отношение cb = <наблюдаемое>/<ожидаемое> cb от Compositionsal Bias. Иногда пишут так: O/E (Observed/Expected)

  4. Постройте гистограмму числа k-меров разбив значения cb на карманы
  5. Опишите и обсудите слова с экстремальными - самыми маленькими и самыми большими значениями

4. Найдите длинное слово, повторяющующееся в геноме 2 или более раз

Длину повтора выберите такой - что случайное появление в геноме двух или более одинаковых слов такой длины маловероятно.

  1. Длину k подберите сомостоятельно, путем экспериментов, рекомендую поискать среди k >= 20. Можно и меньше, дело ваше. Но чем больше k, тем удивительнее:)

  2. Если нашли несколько повторов, то выберите один.
  3. Проверьте является ли повтор максимальным, т.е. его нельзя удлинить с 5'конца или с 3'конца, так, чтобы расширенное слово также было бы повтором. Если повтор оказался не максимальным - замените его расширением(не обязательно, но интересно)
  4. Приведите последовательность повтора, его длину, число встреч в геноме, cb, координаты первого нуклеотида для каждой его находки. Если искали и по прямой цепочке, и по комплементарной - ориентацию находки в геноме: +1 или -1.
  5. Проверьте входят ли находки в гены или лежат в межгенных промежутках. Если в генах - приведите их названия, если в межгенники - попробуйте найти известно ли что-нибудь про найденный вами повтор

5. Найдите в кольцевой хромосомной ДНК из вашего генома координату начала репликации - oriC и координату терминации репликации - ter

Репликация кольцевой ДНК бактерии начинается в определенном месте(origin) с расплетения цепочек ДНК, и продолжается в обе стороны одновременно, до встречи в точке терминации ter. Часть цепочки, которая от oriC удлинняется с 3' конца называется лидирующей. Часть цепочка, которая от oric "наращивается в сторону от 5' конца" называется запаздывающей. Кавычки потому, что при синтезе

  • ДНК ( и РНК) всегда следующий нуклеотид всегда присоединяется к 3' концу. Репликация запаздывающей цепочки идет короткими кусочками, называются фрагменты Оказаки, c 3' конца. Фрагменты Оказаки идут один за другим в направлении, последний синтезированный соединяется с 5' концом предыдущего.

Было обнаружено, что в геномах прокариот (не всех) на лидирующей цепи больше гуанинов G чем цитозинов C. А на запаздывающей цепи - больше цитозинов C чем гуанинов G.

Один из способов нахождения oriС основан на этом наблюдении. Для оценки неоднородности вычисляется величина GC-skew cumulative вдоль всей ДНК, oriC соответствует минимуму GC-skew cumulative, а ter - максимуму. В подсказках найдете ссылку на сервис, вчисляющий GC-skew и GC-skew cumulative. В отчёте приведите график GC-skew cumulative вдоль генома, кординаты oriC и ter, формулу для вычисления GC-skew в интервале и объяснение интегрального значения GC-skew.

Предупреждение. Алгоритм работает не для всех геномов!!! Однако отрицательный результат тоже засчитывается. Для интереса можете попросить геномы у однокурсников. Или договоритесь с несколькими о совместной работе для сравнения ответов. Это приветствуется, если у каждого в соотв. разделе обзоре будут указаны все авторы и вклад автора данного обзора.

6. Найдите частоты трех стоп-кодонов в кодирующих последовательностях белков вашей бактерии или археи

Прочитать про частоты стоп-кодонов можно в статье (англ.) вышедшей в ноябре 2021

7. Найдите частоты кодонов, кодирующтих определенные аминокислотные лостатки в вашем геноме

Можно ограничиться несколькими (не всеми) аминокислотными остатками

Протеом

8. Построить и проанализировать гистограмму длин белков

9. Описать распределение генов белков по цепям ДНК (прямой +1 и обратной -1)

  1. Составить маленькая таблицу числа генов белков, псевдогенов и генов РНК на прямой и обратной цепи для каждой ДНК генома
  2. Оценить - как умеете - вероятность получить случайно такое распределение генов белков по цепям одной ДНК.

10. Вычислите число генов одной и из категорий ниже, и для генов белков - процент от числа всех белков

  1. Для гипотетических (hypothetical) белков - тех, функция которых не определена; иногда даже надежных данных о существовании таких белков нет
  2. Для генов рибосомальных РНК.
    1. Как называются? Сколько копий каждой рибосомальной РНК в геноме?
    2. Найдите кластеры рибосомальных РНК - т.е. близко расположенных разных генов РНК. Укажите сколько их и состав.
  3. Для генов рибосомальных (ribosomal) белков. Сколько разных и число копий каждого.
  4. Для генов транспортных РНК.
  5. Для трансмембранных (transmembrane) белков - белков, пронизывающих мембрану клетки и служащих как каналы в мембране или как рецеторы, передающие сигнал извне в клетку.
  6. Для регуляторных белков - белков, регулирующих экспрессию (производство) других белков.

Важно: опишите в материалах и методах каким методом вы определяли принадлежность белка выбранной категории.

11. Найдите длинные открытые рамки считывания (open reading frame ORF) в вашем геноме и сравните с координатами генов белков из хромосомной таблицы

  1. Составьте список координат всех открытых рамок считывания в геноме от START до STOP
  2. Сравнить координаты ORF с координатами генов белков.
    1. Минимальный вариант для зачёта: привести по несколько (>=2) примеров совпадений координат ORF с координатами генов и несколько примеров несовпадений.

    2. Составьте таблицу числа совпадений и числа несовпадений

Технически, не простое задание

12. Составьте и проанализируйте таблицу частот использования кодонов, кодирующих одну и ту же аминокислоту или стоп-кодон

По английски таблица называется codon usage table.

Следует скачать и распаковать файл "... cds_from_genomic.fna.gz"с кодирующими последовательностями всех генов белков. Он лежит по той же ссылке, что и feature table геном в фаста формате.

Положите этот файл в credits, переименовав его XXXXXXX_cds.fasta

Результат - лист с выходным файлом cusp. Лист со сводной таблицей формата:

<Одно буквенный код а.к.> <число кодонов> <мин частота кодона> <макс частота кодона>

Инициативные темы

Что угодно.

Для разгона - интересные мне, но не сформулированные достаточно конкретно темы:

  1. Найдите все "квазиопероны" в геноме вашей бактерии или археи. Опишите статистику числа генов в квазиоперонах.

У бактерий и архей оперон - участок ДНК с одним или несколькими генами белков, транскрибируемый в одну матричную ДНК. Таким образом, гены в одном опероне закодированы на одной цепочке ДНК. Как правило, расстояние между ними небольшое.

"Квазиопероном" назовем максимальную последовательность генов такую, что

  • (i) гены закодирована на одной цепочке ДНК (ii)промежуток между соседними генами не более порога 100 п.н.

Квазиоперон может состоять и из одного гена. В литературе квазиопреон используют как простейший способ предсказания оперонов в геноме.

  1. Почему бы не сравнить числа генов белков в шести рамках считывания? Вдруг что-нибудь неожиданное обнаружится.
  2. Гистограмма длин межгенных промежутков.
  3. Статистика белков по категориям достоверности их существования(Uniprot)См. указания.

2021/1/mini_review-task/themes (последним исправлял пользователь aba 2021-11-30 18:41:23)