Учебная страница курса биоинформатики,
год поступления 2019
Задания пр. 10
Отчёт должен быть на вашем сайте со ссылкой со страницы семестра.
НПГ сохраните в поддиректории вашей директории ...term3/block2/credits. Мне потребуется при проверке.
В конце отчёта обязателен раздел "Заключение" (или "Обсуждение", или "Комментарии" или что-то в этом духе). Будет обязательная колонка в ведомости для оценки этого раздела.
Не забудьте записаться в очередь, когда выполните всё в обязательном задании 1 (или 1')
— ААл
1. Опишите крупные эволюционные события в геномах 3-5 штаммов одного вида бактерий
a. Выбор геномов бактерии или археи одного вида
- Выберите вид с геномом из одной хромосомы, не считая плазмид
- Выбирайте штаммы с полностью собранной хромосомой (не контиги или скэффолды). Если есть плазмиды их брать не следует
- Запомните AC выбранных хромосом (лучше согласно INSDC, так как программа NPG-explorer закачивает последовательности через ENA). В инструкции написано как указывать идентификаторы Refseq (вида NC_..., NZ_....) если выбрали их
- Проверьте, что по этим AC лежат действительно полные записи с аннотациями и последовательностью хромосомы. А не ссылка на последовательности отдельных контигов.
b. Построение нуклеотидного пангенома с помощью NPG-explorer
Обязательно измените параметр WORKERS на 1, процессы, занимающие более одного ядра процессора буду убивать без предупреждений!
— ИР
См как и где создать единственный входной файл для NPG-explorer подсказки
Постройте НПГ следуя инструкциям.
- При запуске всех программ перенаправьте выходные потоки в log-файлы. Эти log файлы сделайте доступными в отчёте.
При запуске npge MakePangenome оставьте параметры по умолчанию или, если запускали Examine (не обязательно), учтите рекомендацию examine/identity_recommended.txt
- Для контроля прочитайте все ли в порядке в log-файлах. Основные выходные файлы: trees/nj-global-tree.tre (дерево геномов, по объединенному выравниванию g-блоков), genes/features.bs (с описаниями генов), mutations/mutations.tsv (с описанием всех мутаций в блоках), mutations/consensuses.fasta (с консенсусами всех блоков), pangenome/pangenome.info, pangenome/pangenome.bs (с блоками, т.е. выравниваниями), pangenome/pangenome.bi.
- Прочитайте в презентации слайды о типах блоков и критериях, которым удовлетворяет НПГ.
c. Опишите стабильное ядро нуклеотидного пангенома
- Статистическая информация о блоках разных типов содержится в файле pangenome/pangenome.info
- в отчёте укажите
- число блоков (s-blocks)
- размер нуклеотидного ядра как процент нуклеотидов в ядре от числа нуклеотидов во всех геномах
- процент консервативных колонок в объединённом выравнивании s-блоков
d. Опишите [самую] крупную делецию в каждом геноме
Таблица с инфо о всех блоках всех типов (один блок - одна строка)содержится в файле pangenome/pangenome.bi. Её можно открыть в Excel. Формат файла см. в подсказках
- В отчёте приведите табличку: геном, имя блока, подтверждающего делецию, длину делеции, имена одного или нескольких делятированных генов
e. Опишите одну перестановку синтений (g-блоков) в одном или некоторых некоторых геномах
f.* Приведите примеры ошибок аннотации гена (хотя бы один)
Настолько уверен, что ошибка аннотации найдется, что перевел это задание в 1. - было среди дополнительных. * сохранил на случай, если это не так; но доказать это трудно :)
- Где искать ошибки? В длинных s- или h-блоках.
- Как удостовериться, что ошибка? Легко: в одном фрагменте блока аннотирован ген, а в другом (других) фрагментах на том же самом месте то ли гена нет, то ли ген аннотирован в другой рамке считывания, то ли аннотирован и называется совершенно иначе. Это странно при совпадении нуклеотидных последовательностей более, чем на 90%, и сохранении сигналов. В частности стоп-кодонов и инициаторных кодонов.
- Как искать - глазами, перескакивая по генам (Ctrl и стрелки вправо, влево) в нижнем окне qnpge.
- В отчёте опишите найденный беспорядок и как должно быть на самом деле.
1' Запасной вариант выполнения задания 1 для получения зачёта
- Прочитайте слайды про карты сходства blast2seq
- Постройте с помощью blast2seq три попарные карты сходства для хромосом трех штаммов одного вида прокариот и приведите их в отчёте. Постарайтесь найти ответы на все вопросы задания 1. Для сопоставления координат блока из трех последовательностей придется скачивать таблицы находок для трех карт, и сравнивать их. Технически сложнее, но можно ответить, с оговорками, на вопросы.
- Одно задание дополнительное: привести и обосновать координаты одного блока из трех последовательностей.
Задание творческое, не прописаны шаги. Поэтому готов оценивать его без априорного снижения баллов
Дополнительное по НПГ 2.* Проанализируйте все крупные делеции,вставки в геномах
- Инфо содержится в файле pangenome/pangenome.bi
- Задание творческое. Придумайте и напишите на какой вопрос хотите получить ответ. И сделайте, что сможете, для ответа. На вопросы постараюсь отвечать своевременно.
- Полезно сопоставить делеции,вставки с деревом геномов ( trees/nj-global-tree.tre) - чтобы решить вопрос - делеция или вставка.
- Требование: должно быть интересно вам (а, значит, и мне при проверке)
Дополнительное по НПГ 3.* Проанализируйте крупные дупликации в геномах
- Инфо содержится в файле pangenome/pangenome.bi
- Задание творческое. Придумайте и напишите на какой вопрос хотите получить ответ. И сделайте, что сможете, для ответа. На вопросы постараюсь отвечать своевременно.
- Требование: должно быть интересно вам (а, значит, и мне при проверке)
Минимум для получения зачета практикума - задания 2 и 3; построение двух карт локального сходства одного генома с двумя другими; описание нескольких крупных перестроек, видимых на них
Считайте вопросы из задания 3 ориентиром. Не нужно отвечать на все! Можно полно ответить на один вопрос; можно привести по одному примеру на два-три вопроса. Творческий подход в зависимости от особенностей конкретных геномов, приветствуется
Задания можно выполнять одним из двух методов
Метод b. позволяет боле полно отвечать на вопросы сразу о трех геномах. Поэтому вероятно получение более высоких баллов, если, конечно, вы разобрались в выдаче NPG-explorer.
1. Выберите три генома бактерий или архей одного вида
Впрочем, выбор геномов за вами; а наше, преподавателей, дело оценивать результат!
2. Вычислите сходство (identity %) на гомологичных участках геномов и покрытие геномов гомологичными участками (процент гомологичных участков от длины геномов)
3. Исследуйте один или несколько типов крупных перестроек
Минимальный ответ - пример
Практикум 10. Геномные браузеры
Ссылки: UCSC genome browser, Ensembl, NCBI Genome Data Viewer
2. Сравните ген человека с геном шимпанзе
UCSC
Gencode ID гена (не транскрипта, начинается на ENSG, а не на ENST).
Координаты гена надо отдельно указать для каждого альтернативного транскрипта (но не больше, чем для трёх). Для них же надо указать и Transcript ID в Gencode.
Еще пара комментариев:
1) Количество альтернативных продуктов (имеются в виду РНК продукты, белки могут не различаться) – это количество полосочек в треке Gencode при full-отображении.
2) Длину белка можно узнать в разделе "Sequence and Links" на странице транскрипта.
Выберите какой-нибудь белок человека и найдите информацию о гене этого белка в геномном браузере UCSC.
идентификатор гена в Gencode,
к каким плечу и полосе принадлежит участок (например, chr7:p14.2, здесь chr7:p – короткое плечо хромосомы 7, 14.2 – номер полосы в этом плече),
для каждого транскрипта укажите идентификатор Gencode, координаты в хромосоме (включая UTR'ы), число экзонов (общее) и длину последовательности белка (если транскриптов больше трёх, то описать нужно только три первых).
Всю информацию берите из аннотации GENCODE (самой верхней).
транскрипты GENCODE и RefSeq,
частые полиморфизмы (Common SNPs) последней версии (151).
Все остальные треки скройте.
Указания.