Практикум 7

Задание 1

Для анализа я выбрала Китайского Панголина (лат.Manis pentadactyla, англ. Chinese pangolin). Эти животные обитают в Юго-Восточной Азии. Основу их рациона составляют термиты и муравьи. Ведут ночной образ жизни, при опасности сворачиваются в бронированный клубок. Китайскому панголину в первую очередь угрожает браконьерство. Некоторые китайцы едят его мясо, а чешуя используется в качестве ингредиента в традиционной китайской медицине.

В гаплоидном наборе содержится 21 хромосома.

Поиск по NCBI Genome проводился по запросу "Manis pentadactyla". Было найдено 6 сборок. Была выбрана референсная - mManPen7.hap1 с уровненем сборки Chromosome.

Рис 1. Manis pentadactyla (источник - habr.com)

Этот уровень сборки означает, что существует последовательность одной или нескольких хромосом. Это могут быть либо полностью секвенированнные хромосомы без гэпов, либо хромосомы, содержащие скэффолды и контиги с гэпами между ними.

Задание 2

Таблица 1. Характеристики выбранной геномной сборки
GenBank GCA_030020395.1
RefSeq GCF_030020395.1
Genome size 2.8 Gb
Scaffolds 661
Scaffold N50 149.6 Mb
Scaffold L50 8
Contigs 1,044
Contig N50 25.5 Mb
Contig L50 27

L50 — минимальное число контигов (скаффолдов), чья суммарная длина составляет не менее половины суммарной длины сборки.

N50 — длина контига (скэффолда), для которого половина всех нуклеотидов сборки содержится в контигах такой и большей длины

Сборка содержит 661 скэффолд, из которых минимум 8 составляют половину суммарной длины сборки, и из них самый короткий имеет длину 149.6 Mb. Ссылаясь на относительно небольшое значение N50, можно предположить, что это довольно неплохая сборка.

Задание 3

Скачаны файлы из базы Refseq через сайт NCBI FTP

Файлы оказались очень большими, поэтому прикрепляю ссылку с гугл диском

1.Нуклеотидные последовательности генома (в формате FASTA) - GCF_030020395.1_mManPen7.hap1_rna_from_genomic.fna.gz

2.Последовательности белков (в формате FASTA) - GCF_030020395.1_mManPen7.hap1_protein.faa.gz

3.Последовательности генома с аннотацией (GBFF) - GCF_030020395.1_mManPen7.hap1_genomic.gbff.gz

Содержит аннотацию генома(краткая информация о принадлежности генома, идентификатор, гены с их координатами)