Учебная страница курса биоинформатики,
год поступления 2024
Содержание мини-обзора генома бактерии
В мини-обзоре должны присутствовать:
- найденные вами сведения о выбранном вами организме, снабженные ссылками на источники информации. Желательны также сведения о том, что известно об изученных вами особенностях генома (например, о распределении длин белков) для других организмов;
- результаты выполнения минимум трёх заданий, в том числе одного обязательного (гистограмма длин белков);
- обсуждение результатов;
- описание придуманной вами оригинальной (т.е., не из списка ниже) задачи по анализу генома. Лучше всего, если одно из выполненных заданий будет оригинальным. Допускается (но оценивается ниже), если все выполненные задания будут из списка, а оригинальная задача останется в виде её описания. В последнем случае описанию этой задачи следует посвятить отдельный раздел с разумным названием, например: "Возможные дальнейшие исследования".
Варианты заданий
- Обязательное (гистограмма длин белков),
- Составьте таблицу числа генов белков и генов разных типов РНК для каждого репликона (репликон указан в столбце chromosome таблицы особенностей)
- Постройте гистограммы длин промежутков между кодирующими последовательностями (CDS)
- Выберите кодирующие последовательности (CDS) на плюс-цепи самой большой хромосомы такие, которые пересекаются со следующей CDS на плюс-цепи и вычислите число нуклеотидов в пересечении. То же для минус-цепи. Укажите, сколько CDS пересекается со следующей CDS на той же цепи, какой процент это число составляет от числа всех CDS на хромосоме. Постройте гистограмму длин пересечений.
- Определите все старт-кодоны (первые кодоны) в кодирующих последовательностях (CDS) и вычислите, сколько раз встречается каждый старт-кодон; отдельно во всех CDS, псевдогенах и "нормальных" генах.
- Определите все стоп-кодоны в кодирующих последовательностях (CDS) и вычислите, сколько раз встречается каждый стоп-кодон. Желательно тоже отдельно для псевдогенов и нормальных генов.
- Постройте гистограмму GC-состава (GC%) по CDS
- Исследуйте проценты нуклеотидов A, T, G, C по репликонам
- Исследуйте частоты динуклеотидов по репликонам. Динуклеотид — это два нуклеотида подряд.
- Сравните свой геном с геномами других штаммов того же вида или рода по каким-нибудь характеристикам (например, по длинам репликонов, числу CDS, средней длине белка и т.п.)
- Создайте таблицу процентов длины, занятой генами белков, генами РНК, псевдогенами и межгенными промежутками, для каждого репликона.
Создайте таблицу 3✕3, первая строка — с заголовками столбцов, первый столбец — с названиями строк, а в четырёх ячейках — числа:
- CDS на плюс-цепи таких, что следующая CDS — тоже на плюс-цепи
- CDS на плюс-цепи таких, что следующая CDS — на минус-цепи
- CDS на минус-цепи таких, что следующая CDS — на плюс-цепи
CDS на минус-цепи таких, что следующая CDS — тоже на минус-цепи
(в простейшем варианте можно просто проанализировать столбец "strand" для CDS, с учётом хромосомы; более правильный и сложный вариант предусматривает проверку того, что между CDS не вклинились гены РНК или псевдогены)