Для выполнения данного задания я решил выбрать подвид Elephas maximus indicus - один из трёх подвидов вида Elephas maximus. С 1986 года внесён в красный список IUCN (The International Union for Conservation of Nature) как находящийся под угрозой исчезновения. [1]
Представители рода Elephas, так называемые Азиатские слоны, несколько меньше размером по сравнению с африканскими слонами. Их уши меньше, а черепа немного шире. Они обитают в ряде азиатских стран. Населяют луга, влажные лиственные, вечнозелёные леса. В 1992 году правительством Индии был запущен проект "Elephant", ставящий своей целью защиту этого подвида от угрозы вымирания. [2]
У Elephas maximus indicus 27 пар аутосом и 1 пара половых хромосом, X или Y (всего 28 пар хромосом). Выбранная сборка (Genome assembly mEleMax1 primary haplotype) опубликована 6 Июля 2022 года.
Введя в поисковую строку слово ''Elephas'', я получил на выход три сборки.
Выбранная сборка (GCA_024166365.1) имеет уровень ''Chromosome'', что означает, что она представляет собой последовательность одной или нескольких хромосом (также могут быть неразмещённые (unpaced) scaffolds). В добавок, сборка является референсной, что означает, что она была вручную отобрана сотрудниками NCBI как лучшая из представленных.
* - N50 - это такая длина скэффолда (контига), для которого половина (50%) всех нуклеотидов сборки содержится в скэффолдах (контигах) такой и большей длины.
** - L50 - наименьшее число скэффолдов (контигов), в которых содержится половина (50%) всех нуклеотидов сборки.
Идентификатор GenBank | GCA_024166365.1 |
Идентификатор RefSeq | GCF_024166365.1 |
Общий размер генома | 3.4 Gb |
Scaffold N50* | 127.4 Mb |
Scaffold L50** | 10 |
Contig N50* | 88 Mb |
Contig L50** | 13 |
Через NCBI FTP я скачал следующие последовательности:
1. Нуклеотидные последовательности генома (в формате FASTA).
2. Последовательности белков (в формате FASTA).
3. Последовательности генома с аннотацией (GBFF).
GCF_024166365.1_mEleMax1_primary_haplotype_assembly_report.txt | Полная информация о сборке. Содержит хорошую TSV-таблицу о всех последовательностях в геноме. |
GCF_024166365.1_mEleMax1_primary_haplotype_assembly_stats.txt | Содержит различные параметры каждой хромосомы: total-length, scaffold-N50, gc-perc и прочее. |
GCF_024166365.1_mEleMax1_primary_haplotype_cds_from_genomic.fna.gz | Информация о непосредственно кодирующих последовательностях. |
GCF_024166365.1_mEleMax1_primary_haplotype_feature_count.txt.gz | Информация о количестве генов различных типов (rRNA, tRNA, pseudogene) и так далее. |
GCF_024166365.1_mEleMax1_primary_haplotype_feature_table.txt.gz | Таблица локальных особенностей генома (работали с ней в первом семестре первого курса). |
GCF_024166365.1_mEleMax1_primary_haplotype_genomic_gaps.txt.gz | Информация о всех гэпах в геноме (координаты, длины и прочее). |
GCF_024166365.1_mEleMax1_primary_haplotype_rna.fna.gz | Последовательность РНК в fasta-формате. |
Задание я решил сделать с использованием Python. Оно полностью отражено в Google Colab по ссылке.
Кажется, в этой сборке нет информации о последовательностях органелл. Поискав признаки наличия ''сторонних последовательностей'' в файле GCF_024166365.1_mEleMax1_primary_haplotype_assembly_report.txt, я пришёл к выводу, что в сборке есть только хромосомы (целые, а также обломки) и unplaced-scaffold, как их классифицируют авторы.
1. Williams, C.; Tiwari, S.K.; Goswami, V.R.; de Silva, S.; Kumar, A.; Baskaran, N.; Yoganand, K. & Menon, V. (2020). Elephas maximus. IUCN Red List of Threatened Species. 2020: e.T7140A45818198. doi:10.2305/IUCN.UK.2020-3.RLTS.T7140A45818198.en
2. Project Elephant. Government of India. Archived from the original on 14 November 2017.
Кирилл Кузенков, студент второго курса ФББ