Arabidopsis thaliana - модельный и от того крайне удобный для исследования эукариот. Относительно сложных многоклеточных организмов A. thaliana имеет небольшой геном. Это первое растенение чей геном был секвенирован.
A. thaliana имеет всего 157 пар мегануклеотидов и 5 хромосом. Геном кодирует около 27 600 генов, кодирующих белок, и около 6 500 некодирующих генов. Однако, база данных Uniprot насчитывает 39 342 белка в их эталонном протеоме Arabidopsis.
В NCBI ввел запрос по видовому названию Arabidopsis thaliana с фильтрами:
1. есть аннотированные гены (RefSeq или GenBank)
2. качество сборки - chromosome-complete
3. референсная
Результат поиска: только одна референсная сборка, то есть сборка высокого "качества", которую приняли за стандарт по отношению к другим.
N50 - число, такое что сумма длин контигов равна 50 % от длины сборки.
L50 — минимальное количество контигов, сумма длин которых дает чсило большее или равное половине длины сборки, что опеисывает номер длины контига, соответствующего статистике N50, в упорядоченном по убыванию списке длин всех контигов сборки.
RefSeq | GCF_000001735.4 |
GenBank | GCA_000001735.2 |
Размер генома | 119.1 Mb |
Кол-во хромосом | 5 |
Кол-во скэфолдов | 5 |
Скэфолд N50 | 23.5 Mb |
Скэфолд L50 | 3 |
Кол-во контингов | 100 |
Континг N50 | 11.2 Mb |
Континг L50 | 5 |
Уровень сборки | Хромосомный |
Скаченные файлы:
1 - нуклеотидные последовательности генома (в формате FASTA);
2 - последовательности белков (в формате FASTA);
3 - последовательности генома с аннотацией (GBFF).