Kodomo

Пользователь

Учебная страница курса биоинформатики,
год поступления 2017

Excel-2: Подготовка результатов для мини-обзора генома своей бактерии или археи

Все результаты должны быть собраны в одном файле Excel. Для каждого пункта - отдельный лист с названием и понятным форматом. Рекомендуется создать лист legend, на котором коротко объяснены обозначения, принятые на всех других листах, которые могут быть непонятны посторонним читателям.

Оформление листов, таблиц, диаграмм оценивается!

Формулы должны быть оставлены для проверки.

Обязательные задания

  1. На отдельном листе создать сводную таблицу, в которой для каждого сочетания значений в колонках #features (A:A) и class (B:B) посчитано число строк с такими значениями. Эта таблица имеет техническое значение. Она нужна для отбора строк, описывающих полноценные гены белков; строк, описывающих псевдогены; и строк, описывающих гены РНК. См. подсказки

  2. Построить гистограмму длин белков из протеома своей бактерии/археи. Описать статистику длин: мин, макс, средняя длина, среднеквадратичное отклонение от среднего (называется также СТАНДАРТНОЕ ОТКЛОНЕНИЕ), медиана
  3. Создать таблицу числа генов белков, псевдогенов и генов РНК на прямой и комплементарной цепи ДНК (три строки и четыре столбца, включая заголовки).

Дополнительные (не обязательные для зачета) задания

Не стремитесь впихнуть все в отчет в погоне за баллами :).

В науке получать конфетки, конечно, приятно. Но важнее получить что-нибудь интересное, новое, неожиданное! Поэтому лучше сделайте что-нибудь одно, но хорошо, с пониманиманием и в отчете напишите интересное обсуждение. С привлечением литературных данных (поиск в Pubmed и Google) и сравнением с собственными результатами.

Но, конечно, решать вам делать ли дополнительные задания, сколько, и какие. Можно придумать еще что-нибудь новенькое. Например, в одной из групп я упоминал про GC-skew. Разберитесь, напишите скрипт для подсчета или найдите программу в Интернете и опишите что к чему в отчете. Будет принято, как дополнительное задание и оценено.

  1. Проверьте гипотезу о том, что гены распределены по цепочкам случайно с вероятностями 0,5.
  2. Посчитайте, сколько "квазиоперонов" в геноме вашей бактерии или археи.
  3. Представьте статистические данные о пересечениях генов (если таковые обнаружатся).
  4. (Самое важное и трудное) Представьте статистику белков по категориям достоверности их существования.
  5. Другое, что придумаете в рамках доступных данных о вашем геноме.

Пояснения дополнительных заданий

  1. Пусть в вашем геноме 5000 генов белков, из них 2400 - на одной цепи, 2600 - на другой. Отклонение от ожидаемого числа 2500 равно 100. Надо ответить на вопрос возможно ли получить такое или большее отклонение при независимом случайном выборе цепочки для каждого гена.
    1. Подбросим монетку 5000 раз, посчитаем сколько раз выпал орел (ген на + цепочке). Вычислим каково отклонение этого числа от ожидаемого 2500 и сравним с наблюденным нами отклонением 100. Если больше или равно - ставим плюс, если меньше - ставим минус.
    2. Повторим эксперимент, допустим, 1000 раз.
    3. Пусть из 1000 экспериментов шесть раз отклонение оказалось больше или равно наблюденному нами отклонением 100. Значит, вероятность увидеть отклонение 100 или больше примерно равна 6/1000, т.е. < 0.01. Вывод. Если мы готовы считать, что событие с вероятностью 0.01 маловероятное, то полученное нами отклонение 100 противоречит гипотезе о независимом случайном равновероятном выборе цепочки для гена. Значит, надо искать причины.

К счастью, можно обойтись без подбрасывания монетки 1000 раз по 5000 раз :), см.подсказки.

  1. У бактерий и архей оперон - участок ДНК с одним или несколькими генами белков, транскрибируемый в одну матричную ДНК. Таким образом, гены в одном опероне закодированы на одной цепочке ДНК. Как правило, расстояние между ними небольшое.

Иногда используют простейший способ предсказания оперонов. "Квазиопероном" назовем максимальную последовательность генов, закодированных на одной цепочке с промежутками между генами не более порога 100 п.н. Квазиоперон может состоять и из одного гена.

Рассчитайте число квазиоперонов в вашем геноме.

Интересно также распределение квазиоперонов по числу генов.

Как изменится число "квазиоперонов", если поменять порог на расстояние (например взять порог 50 п.н. или 200 п.н.)? Полезно поискать ваш геном в БД оперонов и сравнить результаты.

  1. Длинное пересечение генов - удивительная вещь, но в аннотациях генов встречается. Случаи пересечения генов могут быть явлением природы, но могут быть и результатом ошибки в предсказании кодирующих последовательностей.

Рассчитайте число и процент пересекающихся генов в вашем геноме.

Интересно также классифицировать пресекающиеся гены то типу пересечения: на одной цепочке ДНК или на противоположных; какой сдвиг рамки считывания. И посчитать сколько каких.

  1. Сведения о том, каким образом подтвеждено существование гена можно получить только из базы данных белков Uniprot. Как это сделать - см. в подсказках.