Kodomo

Пользователь

Учебная страница курса биоинформатики,
год поступления 2015

Excel-2: Подготовка результатов для мини-обзора генома своей бактерии или археи

(*) — дополнительное задание

Все результаты должны быть получены с помощью Excel.

  1. Гистограмма длин белков из протеома своей бактерии/археи.
  2. Таблица (три строки и три столбца, включая заголовки) числа генов белков и генов РНК на прямой и комплементарной цепи ДНК.
  3. (*) Данные об особенностях генов. Например, можно написать вот о чем:
    • Проверьте гипотезу о том, что гены распределены между двумя цепями ДНК случайно с вероятностью 0.5
    • Посчитайте, сколько "квазиоперонов" в геноме вашей бактерии/археи
    • Составьте статистические данные о пересечениях генов (если таковые обнаружатся)
    • Опишите, а еще лучше — объясните случаи, когда длина кодирующей последовательности не делится на три (если таковые обнаружатся)

Пояснения

Считайте, что каждый ген входит в какой-нибудь "квазиоперон" (то есть квазиоперон может состоять из одного гена). Соседние гены входят в один "квазиоперон", если они расположены на одной цепи и расстояние между ними меньше 100 п.н. Посмотрите, как изменится число "квазиоперонов", если поменять порог на расстояние (например взять порог 50 п.н. или 200 п.н.).

Этапы выполнения

  1. Скачайте описание протеома вашей бактерии/археи с сервера NCBI (ftp://ftp.ncbi.nlm.nih.gov/genomes/archive/old_refseq/Bacteria/). Нужные вам файлы имееют расширение .ptt и .rnt, и лежат в папке с названием вашей бактерии/археи. Если в геноме больше одной ДНК (есть плазмиды, или несколько хромосом), выберите самую длинную, для которой есть файл .rnt, или (лучше, поставим больше баллов) используйте все файлы вместе и создайте одну таблицу, добавив две колонки: "ДНК" — номер хромосомы или название плазмиды (Chr1, pHPSAT464 и т.д.); и "тип гена" — CDS (ген, кодирующий белок) или RNA (ген, кодирующий РНК).

  2. Откройте файл в Excel, придумайте, какой должен быть разделитель, чтобы в вашем файле были все необходимые колонки (обратите внимание на возможность объединять разделители). Удалите лишние строки в начале файла, отредактируйте названия столбцов и сохраните его в формате .xls (или .xlsx).
  3. Создайте отдельный лист с гистограммой длин всех белков. Напишите, белки какой длины встречаются чаще всего. Опишите особенности распределения белков по длинам, которые показались вам интересными/удивительными/странными.