Для данного практикума я выбрала большую панду, или Ailuropoda melanoleuca на латинском, Giant panda на англиском и 熊猫 на китайском. Из множества вариантов, крутившихся в моей голове, этот стал наиболее подходящим по необходимым параметрам. Пандочки - очень милые животные, по моему мнению. Они забавно взаимодействуют друг с другом. Они просто-напросто большие модные (потому что черно-белые) плюшевые мишки.
Живут панды в Китае и едят, в основном, бамбук (причем определенный, из родов Bashania и Fargesia), но при этом не прочь полакомиться яйцами птиц и рыбой (являются всеядными, но не могут жить без бамбука). Свое английское (и после - русское) название БОЛЬШАЯ панда получила за счет сравнения с красной пандой, которая гораздо меньше по размеру. Сейчас это животное является национальным символом Китая, а также изображено на эмблеме WWF (World Wildlife Fund, всемирный фонд дикой природы) - организации по защите и исследованию окружающей среды.
Что касается генома, то у пандочек 42 хромосомы (диплоидный набор, 2n).
Рис1. Милая панда.
По моему запросу Ailuropoda melanoleuca (я не стала заморачиваться и сразу стала искать нужный мне организм по видовому названия на латинском) нашлось три сборки, две из которых были аннотированны, одна из которых являлась референсной (то есть хорошего качества).
Уровень сборки - Chromosome, то есть в сборке есть одна или более хромосом, но непонятно какого качества (с гэпами и скаффолдами и контигами или без них, полностью собранные).
Идентификатор GenBank | Идентификатор RefSeq | Размер генома (п.н.) | Scaffold N50 | Scaffold L50 | Contig N50 | Contig L50 |
GCA_002007445.3 | GCF_002007445.2 | 73,513 Mb | 129.2 Mb | 8 | 127.7 kb | 5,332 |
N50 - длина контига, для которого 50% всех нуклеотидов сборки содержится в контигах такой и большей длины (максимальная длина контига находится в столбике "L50").
L50 - наименьшее число контигов, в которых содержится 50% всех нуклеотидов сборки (то есть их суммарная длина достигает хотя бы (>=) 50%)
(То же самое для Scaffold)
GCF_002007445.2_ASM200744v3_genomic.fna - содержит информацию о нуклеотидной последовательности генома в FASTA формате.
GCF_002007445.2_ASM200744v3_protein.faa - содержит информацию о последовательности белков в FASTA формате.
GCF_002007445.2_ASM200744v3_genomic.gbff - содержит информацию о последовательности генома с аннотацией в GBFF формате.