1. Я выбрал эукариота Домовую мышь (Mus musculus), потому что это одна из самых популярных животных моделей в лабораторной практике. Линия для которой будет приведен геном (C57BL/6J) является самой распространенной. Как раз с этой линией мышей я сейчас работаю в лаборатории, поэтому и выбрал этот объект.
У Mus musculus 20 пар хромосом, при этом элементов в сборке генома 22 (19 аутосом, X и Y половые хромосомы и митохондриальная ДНК)
Интересным для меня был факт, что полный геном мыши был секвенирован в 2002, то есть раньше, чем человеческий (завершение проекта Геном человека - 2003), хотя размеры почти одинаковы, а интерес к человеческому геному, как я полагал должен был быть больше.
2. Мой поисковый запрос был довольно простым: "Mus musculus"
По нему было найдено 38 сборок.
3-4. Я выбрал референсную сборку (GCA_000001635.9), то есть такую, которую вручную сотрудники NCBI выбрали как высококачественную и лучшую из всех представленных.
Эта сборка имеет уровень хромосомной. Это означает, что в этой сборке присутствует последовательность одной или более хромосом, при том что в этой последовательности могут быть пробелы.
Таблица 1. Некоторые характеристики выбранной сборки.
Идентификатор GenBank | GCA_000001635.9 |
Идентификатор RefSeq | GCF_000001635.27 |
Общий размер генома | 2.7 Gb |
N50 для контигов (*) | 59.5 Mb |
L50 для контигов (**) | 15 |
N50 для скэффолдов | 106.1 Mb |
L50 для скэффолдов | 11 |
* N50 - это длина самого маленького контига (скэффолда) в сумме из минимального числа контигов (скэффолдов) для получения суммарной длины не менее 50% длины всей сборки (то есть в сумме самых больших контигов (скэффолдов))
** L50 - это минимальное количество контигов (скэффолдов), которые при суммировании их длин дают число, большее или равное половине длины сборки
Необходимые файлы я скачал через сайт NCBI, ссылки на них не привожу для экономии места на kodomo.