Kodomo

Пользователь

Учебная страница курса биоинформатики,
год поступления 2016

Excel-2: Подготовка результатов для мини-обзора генома своей бактерии или археи

Все результаты должны быть собраны в одном файле Excel. Для каждого пункта - отдельный лист с понятным форматом.

Оформление листов, таблиц, диаграмм оценивается!

Формулы должны быть оставлены для проверки.

Обязательные задания

  1. Гистограмма длин белков из протеома своей бактерии/археи.
  2. Таблица (три строки и три столбца, включая заголовки) числа генов белков и генов РНК на прямой и комплементарной цепи ДНК.

Дополнительные (не обязательные для зачета) результаты

  1. Проверьте гипотезу о том, что гены распределены по цепочкам случайно с вероятностями 0,5.
  2. Посчитайте, сколько "квазиоперонов" в геноме вашей бактерии или археи.
  3. Представьте статистические данные о пересечениях генов (если таковые обнаружатся).
  4. (Самое важное и трудное) Представьте статистику белков по категориям достоверности их существования.

Дополнительные задания. Пояснения

  1. Пусть в вашем геноме 5000 генов белков и 2450 - на одной цепи, 2550 - на другой. Отклонение от ожидаемого числа 2500 равно 50. Надо ответить на вопрос возможно ли получить такое или большее отклонение при независимом случайном выборе цепочки для каждого гена.
    1. Подбросим монетку 5000 раз, посчитаем сколько раз выпал орел, каково отклонение от ожидаемого 2500 и сравним с наблюдаемым нами отклонением 50. Если больше или равно - ставим плюс, если меньше - ставим минус.
    2. Повторим эксперимент, допустим, 100 раз (а лучше - 1000).
    3. Пусть из 100 экспериментов только один раз отклонение оказалось больше или равно наблюдаемому нами 50. Значит, вероятность увидеть отклонение 50 или больше примерно равна 1/100 = 0.01. Вывод. Если мы готовы считать, что событие с вероятностью 0.01 маловероятное, то полученное нами отклонение 50 противоречит гипотезе о независимом случайном равновероятном выборе цепочки для гена. Значит, надо искать причины.

К счастью, можно обойтись без монетки, см.подсказки.

  1. У бактерий и архей оперон - участок ДНК с одним или несколькими генами белков, транскрибируемый в одну матричную ДНК. Таким образом, гены в одном опероне закодированы на одной цепочке ДНК. Как правило, расстояние между ними небольшое.

Иногда используют простейший способ предсказания оперонов. "Квазиопероном" назовем максимальную последовательность генов , закодированных на одной цепочке с промежутками между генами не более порога 100 п.н. Квазиоперон может состоять и из одного гена.

Рассчитайте число квазиоперонов в вашем геноме.

Интересно также распределение квазиоперонов по числу генов.

Как изменится число "квазиоперонов", если поменять порог на расстояние (например взять порог 50 п.н. или 200 п.н.)?

  1. Длинное пересечение генов - удивительная вещь, но в природе встречается. Также случаи пересечения генов могут быть результатом ошибки в предсказании кодирующих последовательностей.

Рассчитайте число пересекающихся генов в вашем геноме.

Интересно также классифицировать пресекающиеся гены то типу пересечения: на одной цепочке ДНК или на противоположных; какой сдвиг рамки считывания. И посчитать сколько каких.

  1. Сведения о том, каким образом подтвеждено существование гена можно получить только из базы данных белков Uniprot. Как это сделать - см. в подсказках.