Учебный сайт студента ФББ МГУ

Киселёв Матвей Олегович

Отчёт о практикуме 7

Анализ сборки генома Suncus etruscus (Savi, 1822)

Карликовая многозубка (лат. Suncus etruscus, англ. Etruscan shrew) - млекопитающее семейства землеройковых (Soricidae) отряда истинных насекомоядных (Eulipotyphla).

Простите, изображение не загрузилось :( Проверьте подключение к сети
Карликовая многозубка (Suncus etruscus Savi, 1822). Южный Тироль, Италия. Фотограф Dario Taraborelli (Наблюдение INaturalist)

Кариотип S. etruscus состоит из 20 пары аутосом и XY-пары (всего 42 хромосомы в диплоидном наборе, см. статью).

Сборка mSunEtr1.pri.cur найдена в NCBI Nucleotide путём набора в поисковой строке Suncus etruscus full genome. На сегодняшний день данная сборка ядерного генома этого вида единственная в базе данных. Единственная возможная альтернатива - сборка mSunEtr1.alt.cur, но она не референсная и только на уровне контигов. Вероятно, это та же самая сборка, но в старой версии. О её существовании я узнал, перейдя по ссылке Browse all Suncus etruscus genomes (2) на странице обзора референсной сборки.

Уровень сборки Chromosome. Это значит, что в базе данных имеется последовательность как минимум одной хромосомы данного таксона. Последовательность хромосомы (или последовательности хромосом) могут быть собраны без гэпов или представлять собой скаффолды или контиги, соединённые ими. Возможно (и в случае mSunEtr1.pri.cur наблюдается) наличие нелокализованных скаффолдов.

Рассматриваемая сборка является референсной. То есть она была выбрана вручную как сборка высокого качества, которая может служить стандартом для последующих геномных исследований S. etruscus.

Приведу некоторые характеристики выбранной сборки ниже (см. табл. 1).

Для справки:

N50 - длина контига или скаффолда, для которой 50% всех нуклеотидов сборки содержатся в контигах или скаффолдах такой же и большей длины.

L50 - наименьшее число контигов или скаффолдов, в которых содержится как минимум 50% всех нуклеотидов сборки.

Таблица 1. Некоторая информация о сборке mSunEtr1.pri.cur
Идентификатор GenBank GCA_024139225.1
Идентификатор RefSeq GCF_024139225.1
Общий размер генома 2,5 млрд п.о.
N50 скаффолдов 132 млн п.о.
L50 скаффолдов 8
N50 контигов 5 млн п.о.
L50 контигов 133

Т.к. файлы аннотации рассматриваемой сборки вместе занимают очень много памяти, у меня нет возможности скачать их всех на сервер kodomo, привожу ссылку на NCBI FTP:

Сборка mSunEtr1.pri.cur.

На свой ПК я скачал файлы:

Информация об этих и остальных имеющихся файлах содержится вот тут: README.txt

В файле GCF_024139225.1_mSunEtr1.pri.cur_assembly_report.txt, в самой последней его строке, содержится информация о существовании сборки полного митохондриального генома S. etruscus, который, правда, не аннотирован и не включён в базу данных RefSeq. Вот некоторая информация об этой сборке: