Практикум 7: Нуклеотидные банки данных


1. Выбор сборки генома эукариотического организма


Мною был выбран организм Arabidopsis thaliana (Резуховидка Таля). Это растение из семейства Крестоцветные, распространенный модельный объект в физиологии растений. В гаплоидном наборе хромосом данного организма 5 хромосом. Выбор данного организма был обусловлен тем, что одна из областей моих научных интересов - физиология растений!

На портале NCBI Datasets был введен поисковой запрос Arabidopsis thaliana, который командная строка портала преобразовала в Arabidopsis thaliana (thale cress). По запросу нашлось 258 сборок.

Мною была выбрана сборка, отмеченная как референсная. Это сборка TAIR10.1 , её уровень - Chromosome, это означает, что сборка была собрана так, что может быть представлена в виде отдельных хромосом.


2. Характеристики выбранной сборки


Основные характеристики сборки представлены в таблице ниже:

Таблица 1. Характеристики геномной сборки TAIR10.1
ID GenBank GCA_000001735.2
ID RefSeq GCF_000001735.4
Общий размер генома (п.н.) 119 000 000
Число хромосом 5 (гаплоидный набор)
Число скэффолдов 5
N50 скэффолдов 23 500 000
L50 скэффолдов 3
Число контигов 100
N50 контигов 23 500 000
L50 контигов 3

Пояснения: N50 - это длина контига, для которого половина (50%) всех нуклеотидов сборки содержится в контигах такой и большей длины.

L50 - это число контигов (наименьшее), в которых содержится половина (50%) всех нуклеотидов сборки

Число хромосом по данным сборки (5) совпадает с числом хромосом по литературным данным (5).


3. Содержание файлов со сборкой генома, аннотацией и предсказанными последовательностями белков


Из RefSeq были загружены:

Нуклеотидные последовательности генома (FASTA): в этом файле содержатся последовательности ДНК пяти хромосом организма; для хромосом 2-5 указаны частичные последовательности (partial sequence). Ознакомиться с файлом можно по ссылке.

Последовательности белков (в формате FASTA); в файле содержатся последовательности всех белков организма, с их идентификаторами (NP_…). Ознакомиться с файлом можно по ссылке.

Последовательности генома с аннотацией (GBFF); файл содержит информацию о организме, для которого была сделана сборка, авторах сборки, генах, мРНК, других РНК и белок-кодирующих последовательностях (CDS) с их описанием

Файл в формате GBFF был загружен на личный гугл-диск во избежание превышения лимита места на сервере, ссылка на архив с файлом с полной сборкой генома(путь к файлу из папки архива /ncbi_dataset/data/GCF_000001735.4/genomic.gbff).