Учебная страница курса биоинформатики,
год поступления 2016
Excel-2: Подготовка результатов для мини-обзора генома своей бактерии или археи
Все результаты должны быть собраны в одном файле Excel. Для каждого пункта - отдельный лист с понятным форматом.
Оформление листов, таблиц, диаграмм оценивается!
Формулы должны быть оставлены для проверки.
Обязательные задания
- Гистограмма длин белков из протеома своей бактерии/археи.
- Таблица (три строки и три столбца, включая заголовки) числа генов белков и генов РНК на прямой и комплементарной цепи ДНК.
Дополнительные (не обязательные для зачета) результаты
- Проверьте гипотезу о том, что гены распределены по цепочкам случайно с вероятностями 0,5.
- Посчитайте, сколько "квазиоперонов" в геноме вашей бактерии или археи.
- Представьте статистические данные о пересечениях генов (если таковые обнаружатся).
- (Самое важное и трудное) Представьте статистику белков по категориям достоверности их существования.
Дополнительные задания. Пояснения
- Пусть в вашем геноме 5000 генов белков и 2450 - на одной цепи, 2550 - на другой. Отклонение от ожидаемого числа 2500 равно 50. Надо ответить на вопрос возможно ли получить такое или большее отклонение при независимом случайном выборе цепочки для каждого гена.
- Подбросим монетку 5000 раз, посчитаем сколько раз выпал орел, каково отклонение от ожидаемого 2500 и сравним с наблюдаемым нами отклонением 50. Если больше или равно - ставим плюс, если меньше - ставим минус.
- Повторим эксперимент, допустим, 100 раз (а лучше - 1000).
- Пусть из 100 экспериментов только один раз отклонение оказалось больше или равно наблюдаемому нами 50. Значит, вероятность увидеть отклонение 50 или больше примерно равна 1/100 = 0.01. Вывод. Если мы готовы считать, что событие с вероятностью 0.01 маловероятное, то полученное нами отклонение 50 противоречит гипотезе о независимом случайном равновероятном выборе цепочки для гена. Значит, надо искать причины.
К счастью, можно обойтись без монетки, см.подсказки.
- У бактерий и архей оперон - участок ДНК с одним или несколькими генами белков, транскрибируемый в одну матричную ДНК. Таким образом, гены в одном опероне закодированы на одной цепочке ДНК. Как правило, расстояние между ними небольшое.
Иногда используют простейший способ предсказания оперонов. "Квазиопероном" назовем максимальную последовательность генов , закодированных на одной цепочке с промежутками между генами не более порога 100 п.н. Квазиоперон может состоять и из одного гена.
Рассчитайте число квазиоперонов в вашем геноме.
Интересно также распределение квазиоперонов по числу генов.
Как изменится число "квазиоперонов", если поменять порог на расстояние (например взять порог 50 п.н. или 200 п.н.)?
- Длинное пересечение генов - удивительная вещь, но в природе встречается. Также случаи пересечения генов могут быть результатом ошибки в предсказании кодирующих последовательностей.
Рассчитайте число пересекающихся генов в вашем геноме.
Интересно также классифицировать пресекающиеся гены то типу пересечения: на одной цепочке ДНК или на противоположных; какой сдвиг рамки считывания. И посчитать сколько каких.
- Сведения о том, каким образом подтвеждено существование гена можно получить только из базы данных белков Uniprot. Как это сделать - см. в подсказках.