Kodomo

Пользователь

Учебная страница курса биоинформатики,
год поступления 2020

Исследовать минимальный набор тем для включения в мини-обзор

Это задание на то, чтобы вы получили результаты для включения в мини-обзор. Как описать результаты и какие выводы сделать обсудим на следующем занятии.

Результаты должны быть представлены в ЭТ с сопроводительными материалами. Каждое исследование - обычно на отдельном листе. Пожалуйста, позаботьтесь о том, чтобы названия листов ЭТ были понятны проверяющим. На названия этих листов вы будете ссылаться в тексте мини-обзора. Так как темы выбираете вы или даже придумываете сами, то не буду заранее предлагать названия листов (кроме двух обязательных)

Объединение связанных тем на одном листе возможно, но не увлекайтесь этим. Лист предназначен для одной плоской таблицы. Если несколько отдельных данных или маленьких табличек на одну тему, то можно и объединить.

Минимальный набор тем

  1. Две обязательные
  2. Одна с гистограммой
  3. Одна с таблицей
  4. Одна про геном
  5. Одна про протеом

Всего не менее 4х темы, т.к. возможны пересечения

Выбирайте сначала простые темы!

Две темы обязательные для включения в мини-обзор

1. (Артем Васильев) Описать длины ДНК составляющие ваш геном

Входит в задание, выполняемое в день занятия. См. там.

Результат - на странице genome_size. Возможно добавление других исследований на эту страницу. Например, GC-состав и нуклеотидный состав одной цепочки ДНК.

2. Описать встречаемость генов разных типов в вашем геноме

Входит в задание, выполняемое в день занятия. См. там.

Результат - на странице genes_per_types

Темы, на выбор. "Лингвистическое" исследование генома

Данные - файл с геномом в формате fasta

Если нужно собрать информацию по отдельным ДНК (для тех, у кого геном состоит из более одной ДНК), то разбить файл на отдельные ДНК можно командой

seqret -ossingle2 <имя входного фаста файла >

3. Нуклеотидный состав ДНК генома

  1. (Борис) Проверить какие буквы встречаются в последовательности геномной ДНК и сколько раз. Верно ли, что только A, T, G, C?
  2. (ААл) Верно ли, что число букв A примерно равно числу букв T, а число букв G приблизительно равно числу букв C в последовательности одной цепочки геномной ДНК? (Второе правило Чаргаффа)

wordcount -wordsize 1 <имя входного фаста файла > <имя выходного текстового файла>

4. (Екатерина Тычкова) вычислить частоты комплементарных пар A-T и G-C в геномной ДНК.

geecee <имя входного фаста файла > <имя выходного текстового файла>

5. (Максим Смирнов) Выполнить анализ k-меров в геноме

Выберите длину k анализируемых слов. Интересны длины k: 2, 3, 4 (до k = 6, не больше)

  1. Вычислите число встреч каждого слова длины k в вашем геноме

    b. Для каждого k-мера вычислите ожидаемое по статистике число его встреч в вашем геноме и отношение cb = <наблюдаемое>/<ожидаемое>

cb от Compositionsal Bias. Иногда пишут так: O/E (Observed/Expected)

Результат - гистограмма значений cb. Какие слова недопредставлены и какие перепредставлены?

Методы (пусть k = 3 для примера)

a.

wordcount -wordsize 3 <имя входного фаста файла> words-3

b.

cbcalc -s word-3 -K  <имя входного фаста файла>   >  <имя выходного текстового файла> 

выдает ответ в stdout. (-B, -M, -P другие методы вычисления ожидаемого) Автор программы - Ваня Русинов, можете его спрашивать.

6. (Ума, Дарья Латорцева) Найдите и опишите повторяющиеся последовательности в геноме, появление которых нельзя объяснить случайностью

Результат - гистограмма числа последовательностей, повторяющихся указанное число раз.

См. в подсказках. Непростое решение, надо пробовать и выбирать параметры. Программы, которая все сделает за вас с одного запуска нет, так как причины и длины повторов очень разные.

7. (ААл) Повторы - пока не подобрал какие

8. (Анастасия) Как определяется начало кольцевой ДНК в файле с последовательностью генома?(ААл) Найдите место начала репликации - origin - в хромосоме вашего генома и место терминации репликации

Репликация кольцевой ДНК бактерии начинается в определенном месте (oriC) с расплетения цепочек ДНК. Один из способов нахождения oriС основан на наблюдении неоднородности соотношения гуанинов G и цитозинов C на одной цепочке ДНК. С одной стороны от oriC число G на 1000 нуклеотидов меньше числа C на 1000 нуклеотидов (в среднем). А с другой стороны от oriC - наоборот. На этом основан алгоритм вычисления GC-skew,в сервисе http://genskew.csb.univie.ac.at/ (сервис создан студентами во время 2х недельной практики в Мюнхене). oriC соответствует минимуму GC-skew cumulative, а ter (терминатор) - максимуму.

Результат - графическая выдача сервиса для вашей хромосомы. Координаты origin и места терминации в вашей последовательности. Эти данные, формула для вычисления GC-skew в интервале и объяснение интегрального значения GC-skew пойдут в раздел мини-обзора.

Предупреждение Алгоритм работает не для всех геномов!!! Однако отрицательный результат тоже засчитывается. Для интереса можете попросить геномы у однокурсников. Или договоритесь с несколькими о совместной работе для сравнения ответов. Это приветствуется, если у каждого в соотв. разделе обзоре будут указаны все авторы и вклад автора данного обзора.


Темы, на выбор. Анализ протеома и всех генов

Данные - ЭТ с хромосомной таблицей (она же - feature table) для вашего генома

10. (Михаил Никонов, Артем Васильев) Является ли распределение генов белков по цепям ДНК (прямой + и обратной -) случайным?

Результат - маленькая таблица число генов белков на прямой и обратной цепи; то же для псевдогенов и для генов РНК

Вычисление вероятности получить случайно такое распределение генов белков по цепям можно сделать позже, не к следующей пятнице.

11. (ААл) Построить гистограмму длин белков

12.(Александр Неверов) Найдите открытые рамки считывания (open reading frame ORF) в вашем геноме

  1. На странице ЭТ составьте список координат всех открытых рамок считывания в геноме от START до STOP

getorf -table 11 -find 3 -minsize 90 -circular <имя входного фаста файла> | grep ">" > orf-coords.txt

table 11 значит использовать таблицу генетического кода для бактерий

find 3 значит искать от START до STOP и выдавать нуклеотидную последовательность

minsize 90 - выдавать orf'ы длинее 90 п.н., т.е белок >= 30 а.к. Можно использовать мин длину белка в вашем протеоме.

b. Сравнить координаты orf с координатами генов белков. Как минимум привести примеры совпадений и несовпадений.

Технически, не простое задание

13. (Артём Васильев) Какую часть генома занимают последовательности, кодирующие белки (CDS)?

Результат - формулы для вычисления на странице ЭТ.

Предостережение Будите внимательны - гены могут пересекаться!!!

14.(ААл) Вычислите число гипотетических (hypothetical или ... сами попробуйте выбрать) белков в геноме и процент от всех белков

15.(ААл) Составьте таблицу названий и координат (включая ориентацию)рибосомальных (ribosomal) белков и рибосомальных РНК, закодированных в геноме.

16. (Анна) Какие нуклеотиды стоят в третей позиции кодонов? (ААл) Составить таблицу частот использования кодонов кодирующих одну и ту же аминокислоту

По английски таблица называется codon usage table.

Следует скачать и распаковать файл "... cds_from_genomic.fna.gz"с кодирующими последовательностями всех генов белков. Он лежит по той же ссылке, что и feature table геном в фаста формате.

Положите этот файл в credits, переименовав его XXXXXXX_cds.fasta

Метод

cusp <имя входного файла с CDS> <имя выходного текстового файла> 

Результат - лист с выходным файлом cusp. Лист со сводной таблицей формата:

<Одно буквенный код а.к.> <число кодонов> <мин частота кодона> <макс частота кодона>

Темы, пока не сформулированные достаточно конкретно

  1. Изучите "квазиопероны" в геноме вашей бактерии или археи. Статистика числа генов в квазиоперонах.
  2. Почему бы не сравнить числа генов белков в шести рамках считывания? Вдруг что-нибудь неожиданное обнаружится.
  3. Гистограмма длин межгенных промежутков.
  4. Статистика белков по категориям достоверности их существования. (Uniprot)