#pragma css /css/2022.css <<BI>> == Список возможных тем исследования генома и протеома бактерии или археи == '''Главное требование''' к мини-обзору — чтобы он был интересен вам; тогда он будет интересен проверяющему:) Что лучше: (i) выполнить много исследований сверх обязательных или (ii) ограничиться одним или двумя исследованиями сверх обязательных, но хорошо разобраться с темой: подумать чем интересны и полезны результаты исследования, что известно по этой теме в литературе, можно и в интернет поискать. ''Очень важно для меня при проверке - качество написания мини-обзора: понятность текста, адекватность представления результатов (таблицы, рисунки, доступность сопроводительных материалов), наличие выводов из полученных результатов, в том числе гипотез возникших при продумывании темы; даже фантазии принимаются:)'' Если выберете (i) - это приемлемо и оценивается - то времени на оформление результатов может не хватить. Научная работа завершается текстом курсовой (вам предстоит уже на 2м курсе), презентации для доклада или статьи в журнале. ААл = Обязательные исследования = === 1. Описать стандартные данные о геноме выбранной вами бактерии или археи === a. Число и названия ДНК, составляющих геном. Длина каждой ДНК в п.н. a. GC-состав каждой ДНК a. (?) === 2. Привести такие статистические данные о белках протеома === a. Построить и включить в обзор гистограмму длин белков (длина = число аминокислотных остатков (а/к) в белке) a. Сравнить число генов белков, закодированных на прямой и комплементарной цепочке a. Определить число рибосомальных белков - белков, входящих в состав рибосомы a. Определить число гипотетических (hypothetical) белков (''тех, функция которых не определена; иногда нет даже надежных данных о существовании таких белков '') и их процент от всех белков a. Определить число транспортных белков и их процент от всех белков === 3. Привести такие статистические данные о генах РНК === a. Определить число генов РНК и сравнить с числом генов белков a. Определить число рибосомальных РНК (рРНК) - РНК, входящих в состав рибосомы a. Определить число транспортных РНК (тРНК) = Дополнительные исследования для выбора = === 4. Исследование предложенное самим студентом === ''Рекомендуется (но не обязательно) обсудить с преподавателем, чтобы убедиться в возможности получить ответ в рамках имеющихся данных'' === 5. Описать нуклеотидный состав геномных ДНК === '''[Может сделать обязательным - если Дима Пензар сделает это задание обязательным в своём блоке]''' Определить число и частоту встреч каждой из букв A, T, G, C (и других - если встретятся) в последовательности геномной ДНК. Верно ли, что число букв A примерно равно числу букв T, а число букв G приблизительно равно числу букв C в последовательности '''одной''' цепочки геномной ДНК? (Второе правило Чаргаффа) === 6. Проверьте гипотезу о том, что гены распределены по двум цепочкам ДНК случайно с вероятностями 0,5 === === 7. Найдите в кольцевой хромосомной ДНК из выбранного вами генома участок oriC, в котором начинается репликация и участок ter в котором происходит терминация репликации === ''Репликация кольцевой ДНК бактерии начинается в определенном месте(origin) с расплетения цепочек ДНК, и продолжается в обе стороны одновременно с достраиванием комплементарной ДНК к обеим нитям расплетённой ДНК в каждую сторону. Репликация прекращается при встрече репликативных комплексов в участке терминации ter.'' ''Было показано, что в геномах прокариот (не всех) величина GC-skew cumulative достигает минимума в oric и максимума в ter (не всегда так - это биология) GC-skew (= (#C - #G)/(#C + #G) где #C - число нуклеотидов С, #G - нуклеотидов G в окне фиксированного размера. Предупреждение. Алгоритм работает не для всех геномов!!! Однако отрицательный результат тоже засчитывается '' === 8. Представьте статистические данные о пересечениях генов белков - если пересекающиеся гены обнаружатся в геноме выбранной вами бактерии === a. Описание особенностей нуклеотидных и аминокислотных последовательностей на пересечениях генов белков, закодированных в одном геноме (Капшай) === 9. Найдите частоты трёх стоп-кодонов в кодирующих последовательностях белков вашей бактерии или археи === Прочитать про частоты стоп-кодонов можно в [[https://academic.oup.com/mbe/advance-article/doi/10.1093/molbev/msab326/6424004| статье]] (англ.) вышедшей в ноябре 2021 {{{#!wiki comment === 10. Посчитайте, сколько "квазиоперонов" в геноме вашей бактерии или археи === . === 3. Анализ статистики k-меров в геноме для одного k === a. Выберите длину k анализируемых слов. Интересны длины k: 2, 3, 4 a. Вычислите число встреч каждого слова длины k в вашем геноме a. Для каждого k-мера вычислите ожидаемое по статистике число его встреч в вашем геноме и отношение cb = <наблюдаемое>/<ожидаемое> cb от Compositionsal Bias. Иногда пишут так: O/E (Observed/Expected) a. Постройте гистограмму cb по всевозможным k-мерам a. Опишите и обсудите слова с экстремальными — самыми маленькими и самыми большими значениями === 4. Найдите длинное слово, повторяющееся в геноме два или более раза === Длину повтора выберите такой, что случайное появление в геноме двух или более одинаковых слов такой длины маловероятно. a. Длину слова подберите самостоятельно, путем экспериментов, рекомендую поискать среди слов длиннее 20. Можно и меньше, дело ваше. Но чем больше длина слова, тем удивительнее:) a. Если нашли несколько повторов, то выберите один. a. Проверьте является ли повтор максимальным, т.е. его нельзя удлинить с 5'- или 3'-конца, так, чтобы расширенное слово также было бы повтором. Если повтор оказался не максимальным, замените его расширением(не обязательно, но интересно) a. Приведите последовательность повтора, его длину, число встреч в геноме, cb, координаты первого нуклеотида для каждой его находки. Если искали и по прямой цепочке, и по комплементарной - ориентацию находки в геноме: +1 или -1. a. Проверьте, входят ли находки в гены или лежат в межгенных промежутках. Если в генах, приведите их названия, если в межгенниках, попробуйте найти, известно ли что-нибудь про найденный вами повтор. === 10. Вычислите число генов одной из категорий ниже, и для генов белков — процент от числа всех белков === a. Для генов рибосомальных РНК. i. Как называются? Сколько копий каждой рибосомальной РНК в геноме? i. Найдите кластеры рибосомальных РНК, т.е. близко расположенных разных генов РНК. Укажите сколько их и состав. a. Для генов рибосомальных (ribosomal) белков. Сколько разных и число копий каждого. a. Для генов транспортных РНК. a. Для трансмембранных (transmembrane) белков (это белки, пронизывающие мембрану клетки и служащие или как каналы в мембране, или как рецепторы, передающие сигнал извне в клетку). a. Для регуляторных белков — белков, регулирующих экспрессию (производство) других белков. '''Важно:''' опишите в материалах и методах, каким методом вы определяли принадлежность белка выбранной категории. === 11. Найдите длинные открытые рамки считывания (open reading frame ORF) в вашем геноме и сравните с координатами генов белков из хромосомной таблицы === a. Составьте список координат всех открытых рамок считывания в геноме от START до STOP (почти всегда есть несколько вариантов старта, берите самый удалённый от стопа) a. Сравните координаты ORF с координатами генов белков. i. Минимальный вариант для зачёта: привести по несколько (>=2) примеров совпадений координат ORF с координатами генов и несколько примеров несовпадений. i. Составьте таблицу числа совпадений и числа несовпадений (Это технически непростое задание) }}}