Практикум 7

Задание 1: Выбор качественной сборки генома эукариотического организма.

1. Я выбрал эукариота Домовую мышь (Mus musculus), потому что это одна из самых популярных животных моделей в лабораторной практике. Линия для которой будет приведен геном (C57BL/6J) является самой распространенной. Как раз с этой линией мышей я сейчас работаю в лаборатории, поэтому и выбрал этот объект.

У Mus musculus 20 пар хромосом, при этом элементов в сборке генома 22 (19 аутосом, X и Y половые хромосомы и митохондриальная ДНК)

Интересным для меня был факт, что полный геном мыши был секвенирован в 2002, то есть раньше, чем человеческий (завершение проекта Геном человека - 2003), хотя размеры почти одинаковы, а интерес к человеческому геному, как я полагал должен был быть больше.

2. Мой поисковый запрос был довольно простым: "Mus musculus"

По нему было найдено 38 сборок.

3-4. Я выбрал референсную сборку (GCA_000001635.9), то есть такую, которую вручную сотрудники NCBI выбрали как высококачественную и лучшую из всех представленных.

Эта сборка имеет уровень хромосомной. Это означает, что в этой сборке присутствует последовательность одной или более хромосом, при том что в этой последовательности могут быть пробелы.

Задание 2: Таблица некоторых характеристик выбранной сборки.

Таблица 1. Некоторые характеристики выбранной сборки.

Идентификатор GenBank GCA_000001635.9
Идентификатор RefSeq GCF_000001635.27
Общий размер генома 2.7 Gb
N50 для контигов (*) 59.5 Mb
L50 для контигов (**) 15
N50 для скэффолдов 106.1 Mb
L50 для скэффолдов 11

* N50 - это длина самого маленького контига (скэффолда) в сумме из минимального числа контигов (скэффолдов) для получения суммарной длины не менее 50% длины всей сборки (то есть в сумме самых больших контигов (скэффолдов))

** L50 - это минимальное количество контигов (скэффолдов), которые при суммировании их длин дают число, большее или равное половине длины сборки

Задание 3: Скачивание сборки генома, аннотации и предсказанных белковых последовательностей.

Необходимые файлы я скачал через сайт NCBI, ссылки на них не привожу для экономии места на kodomo.