Нуклеотидные банки данных


1

Выбранный эукариотический организм: Sus scrofa (wild pig) - кабан.
Парнокопытное млекопитающее, дикий предок домашней свиньи. Голова снабжена рылом с пятачком, способным прорыть мерзлую землю до 20 см в глубину. Как и домашняя свинья, издает два вида звуков: хрюканье и визжание. Длина тела до 175 см, а рост до 1 м (страшно). Живут до 15 лет и очень хорошо плавают.
Интересно, что азиатские и европейские кабаны отличаются по кариотипу. В Азии у кабанов 38 хромосом, в Европе их 36. Исследования мтхДНК показали, что кабаны родом с южноазиатских островов.

В NCBI был введен запрос по видовому названию Sus scrofa с следующими фильтрами:
1. есть аннотированные гены (RefSeq или GenBank)
2. качество сборки - chromosome-complete
3. референсная

Была найдена ровно одна сборка генома. Уровень сборки - хромосома, что означает, что есть последовательность для одной или более хромосом (может быть без гэпов или с ними, также могут быть нелокализованные скэффолды). Также она является референсной (т.е. сборка генома высокого качества, которая определена "стандартной" по отношению к другим данным).

рисунок S.scrofa (мой)

2


идентификатор GenBank GCF_000003025.6
идентификатор RefSeq GCA_000003025.6
общий размер генома 2.5 Gb
число контигов 1,117
N50 contig 48.2 Mb
L50 contig 15
число скэффолдов 705
N50 scaffold 88.2 Mb
L50 scaffold 9

N50 - это такое число, что сумма длин контигов/скэффолдов такой или большей длины — 50 % от длины сборки.
L50 — это минимальное количество контигов, которое при суммировании их длин дает число, большее или равное половине длины сборки (номер длины контига, соответствующего статистике N50, в упорядоченном по убыванию списке длин всех контигов сборки).



3

Были скачаны следующие файлы на странице сборки NCBI (GCF_000003025.6):
1 - нуклеотидные последовательности генома (в формате FASTA);
2 - последовательности белков (в формате FASTA);
3 - последовательности генома с аннотацией (GBFF).



4

Информация об остальных файлах, доступных по выбранной сборке.

GCA_000003025.6_Sscrofa11.1_wgsmaster.gbff.gz whole genome shotgun
GCA_000003025.6_Sscrofa11.1_genomic_gaps.txt.gz координаты всех гэпов (начало, конец, длина, тип)
GCA_000003025.6_Sscrofa11.1_genomic.gbff.gz файл сборки в формате GenBank
GCA_000003025.6_Sscrofa11.1_genomic.fna.gz fasta-формат генома
GCA_000003025.6_Sscrofa11.1_feature_count.txt.gz счет генов, RNA, CDS по таблице feature_table (у выбранной сборки нет последнего)
GCA_000003025.6_Sscrofa11.1_assembly_stats.txt длина, N50, L50, N75, N90, гэпы (общие и для каждой хромосомы)
GCA_000003025.6_Sscrofa11.1_assembly_report.txt все о сборке
GCA_000003025.6_Sscrofa11.1_assembly_regions.txt альтернативные/исправленные участки сборки
GCA_000003025.6_Sscrofa11.1_assembly_structure/ папка с рядом файлов о хромосомах, контигах (с AC) в разных форматах


6


AC NC_000845
тип органеллы митохондрия
число CDS 13
число генов рРНК 2
число генов тРНК 22
число псевдогенов 0

В файле GCA_000003025.6_Sscrofa11.1_assembly_report.txt была найдена информация о митохондриальной ДНК. Запись о ней (GenBank) предоставляет следующие данные:



Источники

1 - Massimo SCANDURA, Laura IACOLINA, Marco APOLLONIO. Genetic diversity in the European wild boar Sus scrofa: phylogeography, population structure and wild x domestic hybridization // Mammal Review. — 2011. — Vol. 41, no. 2. — P. 125—137. — doi:10.1111/j.1365-2907.2010.00182.x.

2 - Chen, K. et al. «Genetic Resources, Genome Mapping and Evolutionary Genomics of the Pig (Sus scrofa)». Int J Biol Sci 2007; 3(3):153-165. doi:10.7150/ijbs.3.153. Available from http://www.ijbs.com/v03p0153.htm