Практикум 7

ВЫБОР КАЧЕСТВЕННОЙ СБОРКИ ГЕНОМА ЭУКАРИОТИЧЕСКОГО ОРГАНИЗМА

Sorry!
Рис 1. Фотография Sarcophilus harrisii.

Для выполнения данного задания я решил выбрать вид Sarcophilus harrisii - тасманийский дьявол - самый крупный сумчатый хищник. Живёт он, как нетрудно догадаться, на острове Тасмания, а также на материке Австралия. Он был несколько раз на грани вымерания: сначала из-за их отстрелов человеком, а потом из-за очень редкой болезни - лицевая опухоль тасманийского дьявола. Это заболевание очень молодое и ужасно смертоносное по отнощению к бедным сумчатым. Интерес изучения этой болезнь очень велик, так как это инфекционный рак. В мире известны единичные примеры этого поистине удивительного недуга. Опухолевые клетки распространяются от животного к животному посредством укосов за морду. Клетки лицевой опухоли не отторгаются клетками хозяина, так как не несут на себе белков главного комплекса гистосовместимости. Такая беспощность иммунной системы зверьков связана с очень маленьким генетическим разнообразием дьяволов. Стратегия спасения вида весьма печальна: нужно изолировать здоровых особей тасманийского дьявола и повторно заселить территории после вымирания диких животных — носителей и жертв болезни. [1][2]

Sorry!
Рис 2. Лицевая опухоль тасманийского дьявола.

 У Sarcophilus harrisii всего 7 пар хромосом: 6 пар аутосом и 1 пара половых хромосом, X или Y. Выбранная сборка Genome assembly mSarHar1.11 опубликована 7 ноября 2019 года. Введя в поисковую строку слово ''Sarcophilus'', я получил на выход шесть сборок. Выбранная сборка (GCA_902635505.1) имеет уровень ''Chromosome'', что означает, что она представляет собой последовательность одной или нескольких хромосом (также могут быть неразмещённые scaffolds). Сборка является референсной - она была вручную отобрана сотрудниками NCBI как лучшая из всех.

ТАБЛИЦА НЕКОТОРЫХ ХАРАКТЕРИСТИК ВЫБРАННОЙ СБОРКИ

Идентификатор GenBank GCA_902635505.1
Идентификатор RefSeq GCA_902635505.1
Общий размер генома 3.1 Gb
Scaffold N50 611.3 Mb
Scaffold L50 3
Contig N50 62.3 Mb
Contig L50 14

N50 - это такая длина скэффолда (контига), для которого половина (50%) всех нуклеотидов сборки содержится в скэффолдах (контигах) такой и большей длины. 

 L50 - наименьшее число скэффолдов (контигов), в которых содержится половина (50%) всех нуклеотидов сборки.

СКАЧИВАНИЕ ФАЙЛОВ

Через NCBI FTP я скачал следующие последовательности: 

1. Нуклеотидные последовательности генома (в формате FASTA).
2. Последовательности белков (в формате FASTA).
3. Последовательности генома с аннотацией (GBFF).

ТАБЛИЦА С НАЗВАНИЯМИ И ОПИСАНИЯМИ ОСТАЛЬНЫХ ФАЙЛОВ ВЫБОРКИ

GCF_902635505.1_mSarHar1.11_assembly_report.txt Полная информация о сборке. Содержит TSV-таблицу о всех последовательностях в геноме.
GCF_902635505.1_mSarHar1.11_assembly_stats.txt Содержит разные параметры каждой хромосомы: total-length, scaffold-N50 и т.д.
GCF_902635505.1_mSarHar1.11_cds_from_genomic.fna.gz Информация о именно кодирующих последовательностях.
GCF_902635505.1_mSarHar1.11_feature_count.txt.gz Информация о количестве различных типов генов (pseudogene, rRNA, tRNA) и т. д.
GCF_902635505.1_mSarHar1.11_feature_table.txt.gz Таблица локальных особенностей генома (первый семестр).
GCF_902635505.1_mSarHar1.11_genomic_gaps.txt.gz Информация о всех гэпах в геноме.
GCF_024166365.1_mEleMax1_primary_haplotype_rna.fna.gz Последовательность РНК в формате fasta.

ССЫЛКИ НА ИСТОЧНИКИ

1 . Sarcophilus harrisii: INFORMATION - Animal Diversity Web

2. The pathology of devil facial tumor disease (DFTD) in Tasmanian Devils (Sarcophilus harrisii)
R Loh 1, J Bergfeld, D Hayes, A O'hara, S Pyecroft, S Raidal, R Sharpe
PMID: 17099145 DOI: 10.1354/vp.43-6-890