#pragma css /css/2022.css
<<BI>>

== Список возможных тем исследования генома и протеома бактерии или археи ==

'''Главное требование''' к мини-обзору &mdash; чтобы он был интересен вам; тогда он будет  интересен проверяющему:)
     
Что лучше: (i) выполнить много исследований сверх обязательных или (ii) ограничиться одним или двумя исследованиями сверх обязательных, но хорошо 
разобраться с темой: подумать чем интересны и полезны результаты исследования, что известно по этой теме в литературе, можно и в интернет поискать.

''Очень важно для меня при проверке - качество написания мини-обзора: понятность текста, адекватность представления результатов (таблицы, рисунки, доступность сопроводительных материалов), наличие выводов из полученных результатов, в том числе гипотез возникших при продумывании темы; даже фантазии принимаются:)''   

Если выберете (i) - это приемлемо и оценивается - то времени на оформление результатов может не хватить. Научная работа  завершается текстом курсовой (вам предстоит уже на 2м курсе), презентации для доклада или статьи в журнале.

ААл
  
= Обязательные исследования =

=== 1. Описать стандартные данные о геноме выбранной вами бактерии или археи ===
 a. Число и названия ДНК, составляющих геном. Длина каждой ДНК в п.н.
 a. GC-состав каждой ДНК
 a. (?) 
=== 2. Привести такие статистические данные о белках протеома ===
 a. Построить и включить в обзор гистограмму длин белков (длина = число аминокислотных остатков (а/к) в белке)
 a. Сравнить число генов белков, закодированных на прямой и комплементарной цепочке
 a. Определить число рибосомальных белков - белков, входящих в состав рибосомы
 a. Определить число гипотетических (hypothetical) белков (''тех, функция которых не определена; иногда нет даже надежных данных о существовании таких белков '') и их процент от всех белков
 a. Определить число транспортных белков и их процент от всех белков

=== 3. Привести такие статистические данные о генах РНК  ===
 a. Определить число генов РНК и сравнить с числом генов белков
 a. Определить число рибосомальных РНК (рРНК) - РНК, входящих в состав рибосомы
 a. Определить число транспортных РНК (тРНК)

= Дополнительные исследования для выбора =

=== 4. Исследование предложенное самим студентом ===
 
''Рекомендуется (но не обязательно) обсудить с преподавателем, чтобы убедиться в возможности получить ответ в рамках имеющихся данных'' 

=== 5. Описать нуклеотидный состав геномных ДНК ===
'''[Может сделать обязательным - если Дима Пензар сделает это задание обязательным в своём блоке]''' Определить число и частоту встреч каждой из букв A, T, G, C (и других - если встретятся) в последовательности геномной ДНК.  Верно ли, что число букв A примерно равно числу букв T, а число букв G приблизительно равно числу букв C в последовательности '''одной''' цепочки геномной ДНК? (Второе правило Чаргаффа)

=== 6. Проверьте гипотезу о том, что гены распределены по двум цепочкам ДНК случайно с вероятностями 0,5 ===

=== 7. Найдите в кольцевой хромосомной ДНК из выбранного вами генома участок oriC, в котором начинается репликация и участок ter в котором происходит терминация репликации ===
''Репликация кольцевой ДНК бактерии начинается в определенном месте(origin) с расплетения цепочек ДНК, и продолжается в обе стороны одновременно с достраиванием комплементарной ДНК к обеим нитям расплетённой ДНК в каждую сторону. Репликация прекращается при встрече репликативных комплексов 
в участке терминации ter.'' 

''Было показано, что в геномах прокариот (не всех) величина  GC-skew cumulative достигает минимума в oric и максимума в ter (не всегда так - это биология)
GC-skew (= (#C - #G)/(#C + #G) где #C - число нуклеотидов С, #G - нуклеотидов G в окне фиксированного размера. Предупреждение. Алгоритм работает не для всех геномов!!! Однако отрицательный результат тоже засчитывается  ''

=== 8. Представьте статистические данные о пересечениях генов белков - если пересекающиеся гены обнаружатся в геноме выбранной вами бактерии ===
  a. Описание особенностей нуклеотидных и аминокислотных последовательностей на пересечениях генов белков, закодированных в одном геноме (Капшай)
=== 9. Найдите частоты трёх стоп-кодонов в кодирующих последовательностях белков вашей бактерии или археи ===
Прочитать про частоты стоп-кодонов можно в [[https://academic.oup.com/mbe/advance-article/doi/10.1093/molbev/msab326/6424004| статье]] (англ.) вышедшей в ноябре 2021


{{{#!wiki comment

=== 10. Посчитайте, сколько "квазиоперонов" в геноме вашей бактерии или археи ===
.

=== 3. Анализ статистики k-меров в геноме для одного k ===
 a. Выберите длину k анализируемых слов. Интересны длины k: 2, 3, 4
 a. Вычислите число встреч каждого слова длины k в вашем геноме
 a. Для каждого k-мера вычислите ожидаемое по статистике число его встреч в вашем геноме и отношение cb = <наблюдаемое>/<ожидаемое> cb от Compositionsal Bias. Иногда пишут так: O/E  (Observed/Expected)
 a. Постройте гистограмму cb по всевозможным k-мерам
 a. Опишите и обсудите слова с экстремальными — самыми  маленькими и самыми большими значениями

=== 4. Найдите длинное слово, повторяющееся в геноме два или более раза ===
Длину повтора выберите такой, что случайное появление в геноме двух или более одинаковых слов такой длины маловероятно.

 a. Длину слова подберите самостоятельно, путем экспериментов, рекомендую поискать среди слов длиннее 20. Можно и меньше, дело ваше. Но чем больше длина слова, тем удивительнее:) 
 a. Если нашли несколько повторов, то выберите один.
 a. Проверьте является ли повтор максимальным, т.е. его нельзя удлинить с 5'- или 3'-конца, так, чтобы расширенное слово также было бы повтором. Если повтор оказался не максимальным, замените его расширением(не обязательно, но интересно)  
 a. Приведите последовательность повтора, его длину, число встреч в геноме, cb, координаты первого нуклеотида для каждой его находки. Если искали и по прямой цепочке, и по комплементарной  - ориентацию находки в геноме: +1 или -1.
 a. Проверьте, входят ли находки в гены или лежат в межгенных промежутках. Если в генах, приведите их названия, если в межгенниках, попробуйте найти, известно ли что-нибудь про найденный вами повтор.


=== 10. Вычислите число генов одной из категорий ниже, и для генов белков — процент от числа всех белков ===
 a. Для генов рибосомальных РНК. 
   i. Как называются? Сколько копий каждой рибосомальной РНК в геноме?
   i. Найдите кластеры рибосомальных РНК, т.е. близко расположенных разных генов РНК. Укажите сколько их и состав.
 a. Для генов рибосомальных (ribosomal) белков. Сколько разных и число копий каждого.
 a. Для генов транспортных РНК.
 a. Для трансмембранных (transmembrane) белков (это белки, пронизывающие мембрану клетки и служащие или как каналы в мембране, или как рецепторы, передающие сигнал извне в клетку).
 a. Для регуляторных белков — белков, регулирующих экспрессию (производство) других белков.

'''Важно:''' опишите в материалах и методах, каким методом вы определяли принадлежность белка выбранной категории.

=== 11. Найдите длинные открытые рамки считывания (open reading frame ORF) в вашем геноме и сравните с координатами генов белков из хромосомной таблицы ===
 a. Составьте список координат всех открытых рамок считывания в геноме от START до STOP (почти всегда есть несколько вариантов старта, берите самый удалённый от стопа)
 a. Сравните координаты ORF с координатами генов белков.
  i. Минимальный вариант для зачёта: привести по несколько (>=2) примеров совпадений координат ORF с координатами генов и несколько примеров несовпадений.
  i. Составьте таблицу числа совпадений и числа несовпадений
(Это технически непростое задание)
}}}