Нуклеотидные банки данных

Задание 1

Arabidopsis thaliana - модельный и от того крайне удобный для исследования эукариот. Относительно сложных многоклеточных организмов A. thaliana имеет небольшой геном. Это первое растенение чей геном был секвенирован.

A. thaliana имеет всего 157 пар мегануклеотидов и 5 хромосом. Геном кодирует около 27 600 генов, кодирующих белок, и около 6 500 некодирующих генов. Однако, база данных Uniprot насчитывает 39 342 белка в их эталонном протеоме Arabidopsis.

В NCBI ввел запрос по видовому названию Arabidopsis thaliana с фильтрами:
1. есть аннотированные гены (RefSeq или GenBank)
2. качество сборки - chromosome-complete
3. референсная

Результат поиска: только одна референсная сборка, то есть сборка высокого "качества", которую приняли за стандарт по отношению к другим.

Задание 2

N50 - число, такое что сумма длин контигов равна 50 % от длины сборки.
L50 — минимальное количество контигов, сумма длин которых дает чсило большее или равное половине длины сборки, что опеисывает номер длины контига, соответствующего статистике N50, в упорядоченном по убыванию списке длин всех контигов сборки.

Таблица 1 - Данные
RefSeq GCF_000001735.4
GenBank GCA_000001735.2
Размер генома 119.1 Mb
Кол-во хромосом 5
Кол-во скэфолдов 5
Скэфолд N50 23.5 Mb
Скэфолд L50 3
Кол-во контингов 100
Континг N50 11.2 Mb
Континг L50 5
Уровень сборки Хромосомный

Задание 3

Скаченные файлы:
1 - нуклеотидные последовательности генома (в формате FASTA);
2 - последовательности белков (в формате FASTA);
3 - последовательности генома с аннотацией (GBFF).