Мною был выбран организм Arabidopsis thaliana (Резуховидка Таля). Это растение из семейства Крестоцветные, распространенный модельный объект в физиологии растений. В гаплоидном наборе хромосом данного организма 5 хромосом. Выбор данного организма был обусловлен тем, что одна из областей моих научных интересов - физиология растений!
На портале NCBI Datasets был введен поисковой запрос Arabidopsis thaliana, который командная строка портала преобразовала в Arabidopsis thaliana (thale cress). По запросу нашлось 258 сборок.
Мною была выбрана сборка, отмеченная как референсная. Это сборка TAIR10.1 , её уровень - Chromosome, это означает, что сборка была собрана так, что может быть представлена в виде отдельных хромосом.
Основные характеристики сборки представлены в таблице ниже:
ID GenBank | GCA_000001735.2 |
ID RefSeq | GCF_000001735.4 |
Общий размер генома (п.н.) | 119 000 000 |
Число хромосом | 5 (гаплоидный набор) |
Число скэффолдов | 5 |
N50 скэффолдов | 23 500 000 |
L50 скэффолдов | 3 |
Число контигов | 100 |
N50 контигов | 23 500 000 |
L50 контигов | 3 |
Пояснения: N50 - это длина контига, для которого половина (50%) всех нуклеотидов сборки содержится в контигах такой и большей длины.
L50 - это число контигов (наименьшее), в которых содержится половина (50%) всех нуклеотидов сборки
Число хромосом по данным сборки (5) совпадает с числом хромосом по литературным данным (5).
Из RefSeq были загружены:
Нуклеотидные последовательности генома (FASTA): в этом файле содержатся последовательности ДНК пяти хромосом организма; для хромосом 2-5 указаны частичные последовательности (partial sequence). Ознакомиться с файлом можно по ссылке.
Последовательности белков (в формате FASTA); в файле содержатся последовательности всех белков организма, с их идентификаторами (NP_…). Ознакомиться с файлом можно по ссылке.
Последовательности генома с аннотацией (GBFF); файл содержит информацию о организме, для которого была сделана сборка, авторах сборки, генах, мРНК, других РНК и белок-кодирующих последовательностях (CDS) с их описанием
Файл в формате GBFF был загружен на личный гугл-диск во избежание превышения лимита места на сервере, ссылка на архив с файлом с полной сборкой генома(путь к файлу из папки архива /ncbi_dataset/data/GCF_000001735.4/genomic.gbff).