Практикум 7. Нуклеотидные банки данных

Качественная сборка генома эукариотического организма

Выбранный мной организм: Anas platyrhynchos (Кряква) - птица из семейства утиных (Anatidae) отряда гусеобразных (Anseriformes). Наиболее известная и распространённая дикая утка.

Anas platyrhynchos
Рисунок 1. Anas platyrhynchos

По запросу: Anas platyrhynchos(mallard duck) было найдено 23 генома, применив дополнительно фильтр и оставив только референсные геномы, аннотированные с помощью RefSeq или GenBank, с уровнем сборки "Chromosome" и выше, я нашла только 1 подходящий геном.

Меня привлекло то, что ее геномная сборка подошла под все критерии задания (аннотированные гены, качество сборки на уровне Complete, также сборка референская, то есть эта сборка генома отобрана вручную как точная/качественная, NCBI признали ее стандартной в сравнении с остальными сборками). Также мне показалось интересно, что дата публикации сборки - февраль 2025.

Уровень сборки Complete означает, что собрана полная, непрерывная последовательность всех хромосом

Английское название кряквы — mallard

Таблица 1. Основная информация о геномной сборке Anas platyrhynchos
Идентификатор GenBank GCF_047663525.1
Идентификатор RefSeq GCA_047663525.1
Уровень сборки генома Complete
Общий размер генома (п.н.) 1.3 Gb
Число фрагментов генома в сборке 41
Число scaffold 41
Scaffold N50 80.2 Mb
Scaffold L50 5
Число contig 41
Contig N50 80.2 Mb
Contig L50 5

Комментарии к таблице:

Contig N50: Длина контига, для которого половина (50%) всех нуклеотидов сборки содержится в контигах такой и большей длины

Contig L50: Число контигов (наименьшее), в которых содержится половина (50%) всех нуклеотидов сборки

Аналогично для Scaffold

На основе таблицы 1 можно сделать следующие выводы:

  • Так как количество Scaffold и Chromosome одинаково, можно сделать грубое предположение, что каждый Scaffold являтся целой хромосомой.
  • Можно заметить, что N50 имеет достаточно хорошую длину, а L50 - 5 тоже хороший показатель, поэтому данная сборка является максимально полной и достоверно отражает биологическую информацию о геноме.
  • Скачивание файлов

    Нуклеотидные последовательности генома (в формате FASTA) - GCF_047663525.1_IASCAAS_PekinDuck_T2T_genomic.fna

    Последовательности белков (в формате FASTA) - protein.faa

    Последовательности генома с аннотацией (GBFF) - genomic.gbff

    Знакомство с поисковыми системами ENA, NCBI, DDBJ

    Я выбрала следующий белок: инсулин (Insulin)

    Запрос NCBI для поиска всех записей инсулина, посвященные генам или мРНК:

    insulin[Title] AND (biomol_genomic[PROP] OR biomol_mrna[PROP])

    Было найдено 40658 записей.

    Записи, посвященные генам или мРНК инсулина из GenBank:

    insulin[Title] AND (biomol_genomic[PROP] OR biomol_mrna[PROP]) AND ddbj_embl_genbank[filter]

    Было найдено 9294 записи.

    Записи, посвященные генам или мРНК инсулина из RefSeq:

    insulin[Title] AND (biomol_genomic[PROP] OR biomol_mrna[PROP]) AND refseq[filter]

    Было найдено 31361 запись.

    Записи, посвященные генам инсулина из GenBank:

    insulin[Title] AND biomol_genomic[PROP] AND ddbj_embl_genbank[filter]

    Было найдено 4109 записей.

    Записи, посвященные генам инсулина из RefSeq:

    insulin[Title] AND biomol_genomic[PROP] AND refseq[filter]

    Было найдено 20 записей.

    Записи, посвященные мРНК инсулина из GenBank:

    insulin[Title] AND biomol_mrna[PROP] AND ddbj_embl_genbank[filter]

    Было найдено 5185 записей.

    Записи, посвященные мРНК инсулина из RefSeq:

    insulin[Title] AND biomol_mrna[PROP] AND refseq[filter]

    Было найдено 31341 записей.

    Поисковая система NCBI, по моему мнению, является наиболее удобной и визуально приятной, возможно, это связанно с тем, что она часто использовалась до этого.

    Данные, полученные с помощью поисковой системы ENA

    Количество записей, соответствующих мРНК инсулина человека - 7185. Данные были получены с помощью запроса:

    tax_tree(9606) AND description="insulin" AND mol_type="mrna"

    Количество записей, соответствующих гену инсулина человека - 157. Данные были получены с помощью запроса:

    tax_tree(9606) AND description="insulin" AND mol_type="genomic dna"

    Для того, чтобы разобраться как работает Advanced Search на сайте ENA потребовалось много времени, так как он не является интуитивно понятным. После первого запроса, когда логика стала понятна, остальные запросы можно составить достаточно быстро, делать это визуально приятно, поэтому возможно в дальнейшем я буду пользоваться сайтом ENA.

    Данные, полученные с помощью поисковой системы DDBJ (ARSA - база данных)

    Количество записей, соответствующих мРНК инсулина человека - 7192. Данные были получены с помощью запроса:

    (MolecularType:(mRNA)) AND (Definition:(insulin)) AND (Organism:(homo sapiens))

    Количество записей, соответствующих гену инсулина человека - 2144. Данные были получены с помощью запроса:

    (MolecularType:(DNA)) AND (Definition:(insulin))AND (Organism:(homo sapiens))

    Поисковая система DDBJ оказалась более интуитивно понятной, она понравилась больше, чем ENA, но NCBI остается привычнее.