Практикум 7
Задание 1
Для выполнения этого практикума решил выбрать одну из сборок Mus musculus, а конкретнее- GRCm39.
мыш (вроде кродеться)
M. musculus- модельный организм, причем крайне распространенный, поэтому он часто используется в различных исследованиях (например, моя курсовая достаточно тесно связана с Mus musculus, а конкретнее, со сборкой GRCm38).
Как только я прочел задание, то сразу понял, что хочу познакомиться поближе со сборкой GRCm38, но ее не нашлось, была лишь GRCm39). Запрос сотстоял из названия вида: 'Mus musculus'.
Пара фактов о сборке: 21 хромосома, общая длина генома - 2.7 Gb, референсная (рекомендована для использования в исследованиях), а уровень хромосомный (а значит, скэфолды были упорядочены и собраны до хромосомного уровня).
Задание 2
Таблица с фактами о сборке
Идентификатор GenBank | GCA_000001635.9 |
Идентификатор RefSeq | GCF_000001635.27 |
Общий размер генома | 2.7Gb |
Contig N50 | 59.5 Mb |
Contig L50 | 15 |
Scaffold N50 | 106.1 Mb |
Scaffold L50 | 11 |
Пояснение про L50 и N50: эти параметры позволяют так или иначе оценить качество геномной сборки. L50 для скэфолдов- число самых длинных скэфолдов, составляющих половину всего генома, N50 - длина самого короткого из таких скэфолдов. (для контигов вышенаписанное аналогично)
Задание 3
В этом задании необходимо скачать посл-ти белков, геномную сборку в fasta формате, а также аннотированный геном в gbff формате.
Файл с посл-тями белков:
Fasta файл с геномной сборкой:
Упс, выглядит страшно(, но, если промотать дальше, то:
Все хорошо (кажется на первой картинке был участок теломер)
Gbff файл с аннотацией генома: