Учебная страница курса биоинформатики,
год поступления 2021
Список возможных тем исследования генома и протеома бактерии или археи
Главное требование к мини-обзору - чтобы он был интересен вам и проверяющему.
Что лучше: (i) выполнить много тем, формально получить требуемые ответы, или (ii) ограничиться одной - двумя сверх 4х, но глубоко разобраться с ними: подумать и узнать чем полезна и как используется тема (литература и интернет, собственные гипотезы). Подход (ii) мне импонирует больше, буду стараться это участь при проверке, оценивая дополнительные действия и привлечение информации из литературы и баз данных. Однако, не исключаю, что при подходе (i) можно заработать больше баллов.
Наука - это про больше думать, технология - это про быстрее и эффективнее делать.
Ни в коем случае не не беритесь за ВСЕ задания! Это опасно для вас и тяжело для проверяющих:)
ААл
Темы
Геном
1. Описать стандартные данные о вашем геном
- Число и названия ДНК, составляющих геном
- Длина и GC-состав каждой ДНК
2. Описать нуклеотидный состав геномных ДНК
- Проверить какие буквы встречаются в последовательности геномной ДНК и сколько раз. Верно ли, что только A, T, G, C?
Верно ли, что число букв A примерно равно числу букв T, а число букв G приблизительно равно числу букв C в последовательности одной цепочки геномной ДНК? (Второе правило Чаргаффа)
3. Анализ статистики k-меров в геноме для одного k
- Выберите длину k анализируемых слов. Интересны длины k: 2, 3, 4, ... (до ?)
- Вычислите число встреч каждого слова длины k в вашем геноме
Для каждого k-мера вычислите ожидаемое по статистике число его встреч в вашем геноме и отношение cb = <наблюдаемое>/<ожидаемое> cb от Compositionsal Bias. Иногда пишут так: O/E (Observed/Expected)
- Постройте гистограмму числа k-меров разбив значения cb на карманы
- Опишите и обсудите слова с экстремальными - самыми маленькими и самыми большими значениями
4. Найдите длинное слово, повторяющующееся в геноме 2 или более раз
Длину повтора выберите такой - что случайное появление в геноме двух или более одинаковых слов такой длины маловероятно.
Длину k подберите сомостоятельно, путем экспериментов, рекомендую поискать среди k >= 20. Можно и меньше, дело ваше. Но чем больше k, тем удивительнее:)
- Если нашли несколько повторов, то выберите один.
- Проверьте является ли повтор максимальным, т.е. его нельзя удлинить с 5'конца или с 3'конца, так, чтобы расширенное слово также было бы повтором. Если повтор оказался не максимальным - замените его расширением(не обязательно, но интересно)
- Приведите последовательность повтора, его длину, число встреч в геноме, cb, координаты первого нуклеотида для каждой его находки. Если искали и по прямой цепочке, и по комплементарной - ориентацию находки в геноме: +1 или -1.
- Проверьте входят ли находки в гены или лежат в межгенных промежутках. Если в генах - приведите их названия, если в межгенники - попробуйте найти известно ли что-нибудь про найденный вами повтор
5. Найдите в кольцевой хромосомной ДНК из вашего генома координату начала репликации - oriC и координату терминации репликации - ter
Репликация кольцевой ДНК бактерии начинается в определенном месте(origin) с расплетения цепочек ДНК, и продолжается в обе стороны одновременно, до встречи в точке терминации ter. Часть цепочки, которая от oriC удлинняется с 3' конца называется лидирующей. Часть цепочка, которая от oric "наращивается в сторону от 5' конца" называется запаздывающей. Кавычки потому, что при синтезе
- ДНК ( и РНК) всегда следующий нуклеотид всегда присоединяется к 3' концу. Репликация запаздывающей цепочки идет короткими кусочками, называются фрагменты Оказаки, c 3' конца. Фрагменты Оказаки идут один за другим в направлении, последний синтезированный соединяется с 5' концом предыдущего.
Было обнаружено, что в геномах прокариот (не всех) на лидирующей цепи больше гуанинов G чем цитозинов C. А на запаздывающей цепи - больше цитозинов C чем гуанинов G.
Один из способов нахождения oriС основан на этом наблюдении. Для оценки неоднородности вычисляется величина GC-skew cumulative вдоль всей ДНК, oriC соответствует минимуму GC-skew cumulative, а ter - максимуму. В подсказках найдете ссылку на сервис, вчисляющий GC-skew и GC-skew cumulative. В отчёте приведите график GC-skew cumulative вдоль генома, кординаты oriC и ter, формулу для вычисления GC-skew в интервале и объяснение интегрального значения GC-skew.
Предупреждение. Алгоритм работает не для всех геномов!!! Однако отрицательный результат тоже засчитывается. Для интереса можете попросить геномы у однокурсников. Или договоритесь с несколькими о совместной работе для сравнения ответов. Это приветствуется, если у каждого в соотв. разделе обзоре будут указаны все авторы и вклад автора данного обзора.
6. Найдите частоты трех стоп-кодонов в кодирующих последовательностях белков вашей бактерии или археи
Прочитать про частоты стоп-кодонов можно в статье (англ.) вышедшей в ноябре 2021
7. Найдите частоты кодонов, кодирующтих определенные аминокислотные лостатки в вашем геноме
Можно ограничиться несколькими (не всеми) аминокислотными остатками
Протеом
8. Построить и проанализировать гистограмму длин белков
9. Описать распределение генов белков по цепям ДНК (прямой +1 и обратной -1)
- Составить маленькая таблицу числа генов белков, псевдогенов и генов РНК на прямой и обратной цепи для каждой ДНК генома
- Оценить - как умеете - вероятность получить случайно такое распределение генов белков по цепям одной ДНК.
10. Вычислите число генов одной и из категорий ниже, и для генов белков - процент от числа всех белков
- Для гипотетических (hypothetical) белков - тех, функция которых не определена; иногда даже надежных данных о существовании таких белков нет
- Для генов рибосомальных РНК.
- Как называются? Сколько копий каждой рибосомальной РНК в геноме?
- Найдите кластеры рибосомальных РНК - т.е. близко расположенных разных генов РНК. Укажите сколько их и состав.
- Для генов рибосомальных (ribosomal) белков. Сколько разных и число копий каждого.
- Для генов транспортных РНК.
- Для трансмембранных (transmembrane) белков - белков, пронизывающих мембрану клетки и служащих как каналы в мембране или как рецеторы, передающие сигнал извне в клетку.
- Для регуляторных белков - белков, регулирующих экспрессию (производство) других белков.
Важно: опишите в материалах и методах каким методом вы определяли принадлежность белка выбранной категории.
11. Найдите длинные открытые рамки считывания (open reading frame ORF) в вашем геноме и сравните с координатами генов белков из хромосомной таблицы
- Составьте список координат всех открытых рамок считывания в геноме от START до STOP
- Сравнить координаты ORF с координатами генов белков.
Минимальный вариант для зачёта: привести по несколько (>=2) примеров совпадений координат ORF с координатами генов и несколько примеров несовпадений.
- Составьте таблицу числа совпадений и числа несовпадений
Технически, не простое задание
12. Составьте и проанализируйте таблицу частот использования кодонов, кодирующих одну и ту же аминокислоту или стоп-кодон
По английски таблица называется codon usage table.
Следует скачать и распаковать файл "... cds_from_genomic.fna.gz"с кодирующими последовательностями всех генов белков. Он лежит по той же ссылке, что и feature table геном в фаста формате.
Положите этот файл в credits, переименовав его XXXXXXX_cds.fasta
Результат - лист с выходным файлом cusp. Лист со сводной таблицей формата:
<Одно буквенный код а.к.> <число кодонов> <мин частота кодона> <макс частота кодона>
Инициативные темы
Что угодно.
Для разгона - интересные мне, но не сформулированные достаточно конкретно темы:
- Найдите все "квазиопероны" в геноме вашей бактерии или археи. Опишите статистику числа генов в квазиоперонах.
У бактерий и архей оперон - участок ДНК с одним или несколькими генами белков, транскрибируемый в одну матричную ДНК. Таким образом, гены в одном опероне закодированы на одной цепочке ДНК. Как правило, расстояние между ними небольшое.
"Квазиопероном" назовем максимальную последовательность генов такую, что
- (i) гены закодирована на одной цепочке ДНК (ii)промежуток между соседними генами не более порога 100 п.н.
Квазиоперон может состоять и из одного гена. В литературе квазиопреон используют как простейший способ предсказания оперонов в геноме.
- Почему бы не сравнить числа генов белков в шести рамках считывания? Вдруг что-нибудь неожиданное обнаружится.
- Гистограмма длин межгенных промежутков.
- Статистика белков по категориям достоверности их существования(Uniprot)См. указания.
https://kodomo.fbb.msu.ru/FBB/used-images/constructed1.png'''constructed