Практикум №7

Нуклеотидные банки данных.

Задание №1: Выбор качественной генома эукариотического организма.

Для выполнения данного задания я решил выбрать подвид Elephas maximus indicus - один из трёх подвидов вида Elephas maximus. С 1986 года внесён в красный список IUCN (The International Union for Conservation of Nature) как находящийся под угрозой исчезновения. [1]

Представители рода Elephas, так называемые Азиатские слоны, несколько меньше размером по сравнению с африканскими слонами. Их уши меньше, а черепа немного шире. Они обитают в ряде азиатских стран. Населяют луга, влажные лиственные, вечнозелёные леса. В 1992 году правительством Индии был запущен проект "Elephant", ставящий своей целью защиту этого подвида от угрозы вымирания. [2]

Sorry!
Рис 1. Фотография Elephas maximus indicus.

У Elephas maximus indicus 27 пар аутосом и 1 пара половых хромосом, X или Y (всего 28 пар хромосом). Выбранная сборка (Genome assembly mEleMax1 primary haplotype) опубликована 6 Июля 2022 года.

Введя в поисковую строку слово ''Elephas'', я получил на выход три сборки.

Выбранная сборка (GCA_024166365.1) имеет уровень ''Chromosome'', что означает, что она представляет собой последовательность одной или нескольких хромосом (также могут быть неразмещённые (unpaced) scaffolds). В добавок, сборка является референсной, что означает, что она была вручную отобрана сотрудниками NCBI как лучшая из представленных.

Задание №2: Таблица некоторых характеристик выбранной сборки.

* - N50 - это такая длина скэффолда (контига), для которого половина (50%) всех нуклеотидов сборки содержится в скэффолдах (контигах) такой и большей длины.

** - L50 - наименьшее число скэффолдов (контигов), в которых содержится половина (50%) всех нуклеотидов сборки.

Идентификатор GenBank GCA_024166365.1
Идентификатор RefSeq GCF_024166365.1
Общий размер генома 3.4 Gb
Scaffold N50* 127.4 Mb
Scaffold L50** 10
Contig N50* 88 Mb
Contig L50** 13

Задание №3: Загрузка файлов.

Через NCBI FTP я скачал следующие последовательности:

1. Нуклеотидные последовательности генома (в формате FASTA).

2. Последовательности белков (в формате FASTA).

3. Последовательности генома с аннотацией (GBFF).

Задание №4: Таблица, содержащая описание остальных файлов, доступных для соответствующей сборки.

GCF_024166365.1_mEleMax1_primary_haplotype_assembly_report.txt Полная информация о сборке. Содержит хорошую TSV-таблицу о всех последовательностях в геноме.
GCF_024166365.1_mEleMax1_primary_haplotype_assembly_stats.txt Содержит различные параметры каждой хромосомы: total-length, scaffold-N50, gc-perc и прочее.
GCF_024166365.1_mEleMax1_primary_haplotype_cds_from_genomic.fna.gz Информация о непосредственно кодирующих последовательностях.
GCF_024166365.1_mEleMax1_primary_haplotype_feature_count.txt.gz Информация о количестве генов различных типов (rRNA, tRNA, pseudogene) и так далее.
GCF_024166365.1_mEleMax1_primary_haplotype_feature_table.txt.gz Таблица локальных особенностей генома (работали с ней в первом семестре первого курса).
GCF_024166365.1_mEleMax1_primary_haplotype_genomic_gaps.txt.gz Информация о всех гэпах в геноме (координаты, длины и прочее).
GCF_024166365.1_mEleMax1_primary_haplotype_rna.fna.gz Последовательность РНК в fasta-формате.

Задание №5: График убывания длин последоваельностей.

Задание я решил сделать с использованием Python. Оно полностью отражено в Google Colab по ссылке.

Задание №6: Органеллы.

Кажется, в этой сборке нет информации о последовательностях органелл. Поискав признаки наличия ''сторонних последовательностей'' в файле GCF_024166365.1_mEleMax1_primary_haplotype_assembly_report.txt, я пришёл к выводу, что в сборке есть только хромосомы (целые, а также обломки) и unplaced-scaffold, как их классифицируют авторы.

Ссылки.

1. Williams, C.; Tiwari, S.K.; Goswami, V.R.; de Silva, S.; Kumar, A.; Baskaran, N.; Yoganand, K. & Menon, V. (2020). Elephas maximus. IUCN Red List of Threatened Species. 2020: e.T7140A45818198. doi:10.2305/IUCN.UK.2020-3.RLTS.T7140A45818198.en

2. Project Elephant. Government of India. Archived from the original on 14 November 2017.

Кирилл Кузенков, студент второго курса ФББ