Анализ генома прокариота

Выбор сборки генома эукариотического организма

Для данного практикума я выбрала большую панду, или Ailuropoda melanoleuca на латинском, Giant panda на англиском и 熊猫 на китайском. Из множества вариантов, крутившихся в моей голове, этот стал наиболее подходящим по необходимым параметрам. Пандочки - очень милые животные, по моему мнению. Они забавно взаимодействуют друг с другом. Они просто-напросто большие модные (потому что черно-белые) плюшевые мишки.

Живут панды в Китае и едят, в основном, бамбук (причем определенный, из родов Bashania и Fargesia), но при этом не прочь полакомиться яйцами птиц и рыбой (являются всеядными, но не могут жить без бамбука). Свое английское (и после - русское) название БОЛЬШАЯ панда получила за счет сравнения с красной пандой, которая гораздо меньше по размеру. Сейчас это животное является национальным символом Китая, а также изображено на эмблеме WWF (World Wildlife Fund, всемирный фонд дикой природы) - организации по защите и исследованию окружающей среды.

Что касается генома, то у пандочек 42 хромосомы (диплоидный набор, 2n).

micro

Рис1. Милая панда.

Описаение геномной сборки:

По моему запросу Ailuropoda melanoleuca (я не стала заморачиваться и сразу стала искать нужный мне организм по видовому названия на латинском) нашлось три сборки, две из которых были аннотированны, одна из которых являлась референсной (то есть хорошего качества).

Уровень сборки - Chromosome, то есть в сборке есть одна или более хромосом, но непонятно какого качества (с гэпами и скаффолдами и контигами или без них, полностью собранные).


Некоторые характеристики сборки:
Таблица 1. Параметры характеристики сборки.
Идентификатор GenBank Идентификатор RefSeq Размер генома (п.н.) Scaffold N50 Scaffold L50 Contig N50 Contig L50
GCA_002007445.3 GCF_002007445.2 73,513 Mb 129.2 Mb 8 127.7 kb 5,332

N50 - длина контига, для которого 50% всех нуклеотидов сборки содержится в контигах такой и большей длины (максимальная длина контига находится в столбике "L50").

L50 - наименьшее число контигов, в которых содержится 50% всех нуклеотидов сборки (то есть их суммарная длина достигает хотя бы (>=) 50%)

(То же самое для Scaffold)


Скачанные файлы:

GCF_002007445.2_ASM200744v3_genomic.fna - содержит информацию о нуклеотидной последовательности генома в FASTA формате.

GCF_002007445.2_ASM200744v3_protein.faa - содержит информацию о последовательности белков в FASTA формате.

GCF_002007445.2_ASM200744v3_genomic.gbff - содержит информацию о последовательности генома с аннотацией в GBFF формате.