Для выполнения данного задания я решил выбрать вид Sarcophilus harrisii - тасманийский дьявол - самый крупный сумчатый хищник. Живёт он, как нетрудно догадаться, на острове Тасмания, а также на материке Австралия. Он был несколько раз на грани вымерания: сначала из-за их отстрелов человеком, а потом из-за очень редкой болезни - лицевая опухоль тасманийского дьявола. Это заболевание очень молодое и ужасно смертоносное по отнощению к бедным сумчатым. Интерес изучения этой болезнь очень велик, так как это инфекционный рак. В мире известны единичные примеры этого поистине удивительного недуга. Опухолевые клетки распространяются от животного к животному посредством укосов за морду. Клетки лицевой опухоли не отторгаются клетками хозяина, так как не несут на себе белков главного комплекса гистосовместимости. Такая беспощность иммунной системы зверьков связана с очень маленьким генетическим разнообразием дьяволов. Стратегия спасения вида весьма печальна: нужно изолировать здоровых особей тасманийского дьявола и повторно заселить территории после вымирания диких животных — носителей и жертв болезни. [1][2]
У Sarcophilus harrisii всего 7 пар хромосом: 6 пар аутосом и 1 пара половых хромосом, X или Y. Выбранная сборка Genome assembly mSarHar1.11 опубликована 7 ноября 2019 года. Введя в поисковую строку слово ''Sarcophilus'', я получил на выход шесть сборок. Выбранная сборка (GCA_902635505.1) имеет уровень ''Chromosome'', что означает, что она представляет собой последовательность одной или нескольких хромосом (также могут быть неразмещённые scaffolds). Сборка является референсной - она была вручную отобрана сотрудниками NCBI как лучшая из всех.
Идентификатор GenBank | GCA_902635505.1 |
Идентификатор RefSeq | GCA_902635505.1 |
Общий размер генома | 3.1 Gb |
Scaffold N50 | 611.3 Mb |
Scaffold L50 | 3 |
Contig N50 | 62.3 Mb |
Contig L50 | 14 |
N50 - это такая длина скэффолда (контига), для которого половина (50%) всех нуклеотидов сборки содержится в скэффолдах (контигах) такой и большей длины.
L50 - наименьшее число скэффолдов (контигов), в которых содержится половина (50%) всех нуклеотидов сборки.
Через NCBI FTP я скачал следующие последовательности:
1. Нуклеотидные последовательности генома (в формате FASTA).
2. Последовательности белков (в формате FASTA).
3. Последовательности генома с аннотацией (GBFF).
GCF_902635505.1_mSarHar1.11_assembly_report.txt | Полная информация о сборке. Содержит TSV-таблицу о всех последовательностях в геноме. |
---|---|
GCF_902635505.1_mSarHar1.11_assembly_stats.txt | Содержит разные параметры каждой хромосомы: total-length, scaffold-N50 и т.д. |
GCF_902635505.1_mSarHar1.11_cds_from_genomic.fna.gz | Информация о именно кодирующих последовательностях. |
GCF_902635505.1_mSarHar1.11_feature_count.txt.gz | Информация о количестве различных типов генов (pseudogene, rRNA, tRNA) и т. д. |
GCF_902635505.1_mSarHar1.11_feature_table.txt.gz | Таблица локальных особенностей генома (первый семестр). |
GCF_902635505.1_mSarHar1.11_genomic_gaps.txt.gz | Информация о всех гэпах в геноме. |
GCF_024166365.1_mEleMax1_primary_haplotype_rna.fna.gz | Последовательность РНК в формате fasta. |
1 . Sarcophilus harrisii: INFORMATION - Animal Diversity Web
2. The pathology of devil facial tumor disease (DFTD) in Tasmanian Devils (Sarcophilus harrisii)
R Loh 1, J Bergfeld, D Hayes, A O'hara, S Pyecroft, S Raidal, R Sharpe
PMID: 17099145 DOI: 10.1354/vp.43-6-890