Практикум 7

Нуклеотидные банки данных

Выбор сборки генома эукариотического организма

Я искал геном тигра (лат. Panthera tigris). Тигры являются крупнейшими представителями семейства кошачьих, и из всех наземных хищников по массе, которая может достигать 300-350кг, уступают лишь бурым и белым медведям. На данный момент они относятся к исчезающим видам и суммарное количество особей составляет 4000-6000. Тигры имеют 19 хромосом(в диплоидном наборе 38). По запросу "Panthera tigris" было найдено 6 сборок генома, одна их которых "P.tigris_Pti1_mat1.1" являлась референсной.

Данная сборка подходит для рассмотрения так как она:
1)Имеет качество сборки на уровне хромосом
2)Имеет аннотированные гены в RefSeq.
3)Является референсной.

Responsive image
Рис. 1 Бенгальский тигр
Некоторые характеристики выбранной сборки

Таблица 1. Характеристики гаплоидной геномной сборки

ID GenBank GCA_018350195.2
ID RefSeq GCF_018350195.1
Общий размер генома (п.н.) 2.4 Gb
Число хромосом 19
Число скэффолдов 74
Число контигов 139
Scaffold N50 146.9 Mb
Scaffold L50 7
Contig N50 74.4 Mb
Contig L50 12


1)Contig N50 - длина контига, для которого 50% всех нуклеотидов сборки содержится в контигах такой и большей длины.

2)Contig L50 - наименьшее число контигов, в которых содержится 50% всех нуклеотидов сборки.

3)Для Scaffold N50 и Scaffold L50 применяются те же соображения. Так же в информации о сборке было указано что она содержит 3 нелокализованных скеффолда.

Исходя из всех ее характеристик можно сказать что эта сборка достаточно хорошо отражает информацию о геноме организма.

Скачивание сборки генома, аннотации и предсказанных белковых последовательностей

С помощью FTP с NCBI были скачаны следущие необходимые файлы:

1)"./GCF_018350195.1/genomic.fna" - последовательности ДНК генома

2)"./GCF_018350195.1/genomic.gff" - аннотированный геном

3)"./GCF_018350195.1/protein.faa" - последовательность белков генома