Нуклеотидные банки данных


Выбор сборки генома эукариотического организма

В качестве эукариотического организма я выбрала каролинскую белку. Её латинское название – Sciurus carolinensis, а английское – Gray squirrel. Выбрала я это животное просто потому, что считаю белок довольно милыми, а ещё мне нравятся их пушистые хвосты. Живут каролинские белки в Северной Америке, но также являются инвазивным видом в Шотландии, Англии, Ирландии и Италии и вытесняют там обыкновенных белок. Длина тела у каролинских белок обычно 380-525 мм, в окраске преобладает тёмно-серый цвет с оттенками рыжего или коричневого, иногда грязно-белого. Кстати, в 1968 году каролинскую белку признали символом штата Кентукки. Что касается генома, у каролинской белки 40 хромосом.

белка1
Рис 1. Каролинская белка с орехом
белка2
Рис 2. Каролинская белка сидит смотрит

Описание сборки:

Запрос: так как я не разбираюсь в видах белок, я осуществляла поиск по названию рода – Sciurus.

Количество найденных сборок: 7, из них 4 относятся к Sciurus carolinensis.

Уровень сборки: Chromosome. Это значит, что сборка содержит одну или более хромосом. Это может быть полностью секвенированная хромосома без гэпов или хромосома, содержащая скааффолды/контиги с гэпами между ними.

Сборка является референсной, то есть вручную отобранной сброкой высокого качества, которую NCBI индентифицировали в качестве стандарта при сравнении с другими.

Некоторые характеристики выбранной сборки
Таблица 1. Характеристики сборки
Идентификатор GenBank Идентификатор RefSeq Общий размер генома Scaffold N50 Scaffold L50 Contig N50 Contig L50
GCA_902686445.2 GCF_902686445.1 2,815 Mb 148.2 Mb 8 14 Mb 52

Contig N50 – длина контига, для которого половина всех нуклеотидов сборки содержится в контигах такой и большей длины (длина максимального контига из списка L50)

Contig L50 – наименьшее число контигов, в которых содержится половина всех нуклеотидов сборки (суммарная длина хотя бы половина)

Для Scaffold аналогично

Скачивание необходимых файлов

Скачала следующие файлы:

GCF_902686445.1_mSciCar1.2_protein.faa – последовательности белков в формате FASTA;

GCF_902686445.1_mSciCar1.2_genomic.fna – нуклеотидные последовательности генома в формате FASTA;

GCF_902686445.1_mSciCar1.2_genomic.gbff – последовательности генома с аннотацией

Остальные файлы

GCF_902686445.1_mSciCar1.2_feature_table.txt. – таблица особенностей

GCF_902686445.1_mSciCar1.2_rna_from_genomic.fna – транскрипты генома

GCF_902686445.1_mSciCar1.2_cds_from_genomic.fna – кодирующие последовательности генома в формате FASTA