Практикум 7
Сборка генома эукариотического организма
Для выполнения данного практикума я выбрала эукариотический организм, а именно – дыню (англ. Muskmelon) (рисунок 1).
Латинское название данного объекта – Cucumis melo.
Выбор данного объекта обусловлен тем, что дыня является важным культурным растением. А также немаловажным фактором для принятия окончательного решения стали вкусовые свойства дыни.
Для Cucumis melo характерен хромосомный набор 2n=24 (Garcia-Mas J. et al., 2012).
Рисунок 1. Дыня. Источник изображения.
Через систему поиска на сайте NCBI Datasets был осуществлен поиск сборок генома Cucumis melo. Также были применены фильтры: в результате поиска показывались только референсные аннотированные геномы, а также были исключены нетипичные геномы. Результатом поиска являлась одна сборка, которую я и выбрала.
Данный геном собран на хромосомном уровне. Это значит, что установлена последовательность для одной или нескольких хромосом. Это может быть как полностью секвенированная хромосома без гэпов, так и хромосома, содержащая скэффолды или контиги с гэпами между ними.
В таблице 1 представлены некоторые характеристики выбранной сборки. В том числе в ней приведены параметры N50 и L50 для контигов и скэффолдов.
Параметр N50 отражает длину контига/скэффолда, для которого 50% всех нуклеотидов содержится в контигах/скэффолдах такой и большей длины.
Параметр L50 отражает наименьшее число контигов/скэффолдов, в которых содержится 50% всех нуклеотидов сборки.
Таблица 1. Характеристики выбранной сборки Cucumis melo.
Характеристика |
Информация |
Идентификатор GenBank |
GCA_025177605.1 |
Идентификатор RefSeq |
GCF_025177605.1 |
Общий размер генома |
438.3 Mb |
Число фрагментов генома в сборке |
12 |
N50 для контигов |
10.5 Mb |
L50 для контигов |
14 |
N50 для скэффолдов |
30.5 Mb |
L50 для скэффолдов |
6 |
Как было сказано ранее, у дыни хромосомный набор 2n=24. Это соотносится с тем, что в данной сборке 12 фрагментов генома.
Также можно увидеть, что параметр L50 довольно низкий и для контигов, и для скэффолдов, что может свидетельствовать о хорошем качестве сборки.
С моей точки зрения, данная сборка довольно полно отражает биологическую информацию о геноме выбранного организма.
Далее я скачала некоторую информацию о выбранной сборке из RefSeq.
Были скачаны следующие три файла:
1) genomic.fna – в данном файле содержатся нуклеотидные последовательности генома.
2) protein.fna – в данном файле содержатся последовательности белков.
3) genomic.gbff – в данном файле содержатся последовательности генома с аннотацией.
Список литературы
1) Garcia-Mas J., Benjak A., Sanseverino W. et al., 2012. The genome of melon (Cucumis melo L.) // Proceedings of the National Academy of Sciences. V. 109. № 29.