Выбор сборки

Я сделала выбор в пользу Danio rerio - лучепёрой рыбы, являющейся модельным организмом. Думаю, работать с этим объектом будет интересно, так как он детально изучен. У Danio rerio 25 хромосом (+MT DNA, митохондриальная ДНК).

1
Рис. 1. Danio rerio - вид пресноводных лучепёрых рыб семейства карповых. daniorerio daniorerio

Мой поисковый запрос - Danio rerio, было найдено 17 сборок генома. Моя сборка стояла первой в списке, она отмечена как референсная (других референсных сборок нет). Это означает, что данная сборка является эталонной - она отобрана вручную, NCBI и сообщество отметили её как «стандарт», с которым сравниваются все остальные сборки.
Уровень сборки - Chromosome, т.е. в базе данных имеется последовательность одной или нескольких хромосом. Это может быть полностью секвенированная хромосома без пробелов или хромосома, содержащая каркасы или контиги с пробелами между ними.

Характеристики выбранной сборки

GenBank assembly accession GCA_000002035.4
RefSeq assembly accession GCF_000002035.6
Общий размер генома 1 373 454 788 (1.4 Gb)
Number of scaffolds 1,917
Scaffold N50 7 379 053 (7.4 Mb)
Scaffold L50 44
Number of contigs 19,725
Contig N50 1 422 317 (1.4 Mb)
Contig L50 219

*N50: Длина контига, для которого половина (50%) всех нуклеотидов сборки содержится в контигах такой и большей длины (при том, что все контиги упорядочены)
L50: Число контигов (наименьшее), в которых содержится половина (50%) всех нуклеотидов сборки (при том, что все контиги упорядочены)

Сборка генома, аннотация и белковые последовательности

Дополнительно мною была скачана информация о моей сборке:
1. Нуклеотидные последовательности генома (из GenBank и RefSeq)
2. Последовательности белков protein.zip
3. Последовательности генома с аннотацией seq_annot.zip