Практикум 7. Нуклеотидные банки данных
Качественная сборка генома эукариотического организма
Выбранный мной организм: Anas platyrhynchos (Кряква) - птица из семейства утиных (Anatidae) отряда гусеобразных (Anseriformes). Наиболее известная и распространённая дикая утка.
По запросу: Anas platyrhynchos(mallard duck) было найдено 23 генома, применив дополнительно фильтр и оставив только референсные геномы, аннотированные с помощью RefSeq или GenBank, с уровнем сборки "Chromosome" и выше, я нашла только 1 подходящий геном.
Меня привлекло то, что ее геномная сборка подошла под все критерии задания (аннотированные гены, качество сборки на уровне Complete, также сборка референская, то есть эта сборка генома отобрана вручную как точная/качественная, NCBI признали ее стандартной в сравнении с остальными сборками). Также мне показалось интересно, что дата публикации сборки - февраль 2025.
Уровень сборки Complete означает, что собрана полная, непрерывная последовательность всех хромосом
Английское название кряквы — mallard
| Идентификатор GenBank | GCF_047663525.1 |
|---|---|
| Идентификатор RefSeq | GCA_047663525.1 |
| Уровень сборки генома | Complete |
| Общий размер генома (п.н.) | 1.3 Gb |
| Число фрагментов генома в сборке | 41 |
| Число scaffold | 41 |
| Scaffold N50 | 80.2 Mb |
| Scaffold L50 | 5 |
| Число contig | 41 |
| Contig N50 | 80.2 Mb |
| Contig L50 | 5 |
Комментарии к таблице:
Contig N50: Длина контига, для которого половина (50%) всех нуклеотидов сборки содержится в контигах такой и большей длины
Contig L50: Число контигов (наименьшее), в которых содержится половина (50%) всех нуклеотидов сборки
Аналогично для Scaffold
На основе таблицы 1 можно сделать следующие выводы:
Скачивание файлов
Нуклеотидные последовательности генома (в формате FASTA) - GCF_047663525.1_IASCAAS_PekinDuck_T2T_genomic.fna
Последовательности белков (в формате FASTA) - protein.faa
Последовательности генома с аннотацией (GBFF) - genomic.gbff
Знакомство с поисковыми системами ENA, NCBI, DDBJ
Я выбрала следующий белок: инсулин (Insulin)
Запрос NCBI для поиска всех записей инсулина, посвященные генам или мРНК:
insulin[Title] AND (biomol_genomic[PROP] OR biomol_mrna[PROP])
Было найдено 40658 записей.
Записи, посвященные генам или мРНК инсулина из GenBank:
insulin[Title] AND (biomol_genomic[PROP] OR biomol_mrna[PROP]) AND ddbj_embl_genbank[filter]
Было найдено 9294 записи.
Записи, посвященные генам или мРНК инсулина из RefSeq:
insulin[Title] AND (biomol_genomic[PROP] OR biomol_mrna[PROP]) AND refseq[filter]
Было найдено 31361 запись.
Записи, посвященные генам инсулина из GenBank:
insulin[Title] AND biomol_genomic[PROP] AND ddbj_embl_genbank[filter]
Было найдено 4109 записей.
Записи, посвященные генам инсулина из RefSeq:
insulin[Title] AND biomol_genomic[PROP] AND refseq[filter]
Было найдено 20 записей.
Записи, посвященные мРНК инсулина из GenBank:
insulin[Title] AND biomol_mrna[PROP] AND ddbj_embl_genbank[filter]
Было найдено 5185 записей.
Записи, посвященные мРНК инсулина из RefSeq:
insulin[Title] AND biomol_mrna[PROP] AND refseq[filter]
Было найдено 31341 записей.
Поисковая система NCBI, по моему мнению, является наиболее удобной и визуально приятной, возможно, это связанно с тем, что она часто использовалась до этого.
Данные, полученные с помощью поисковой системы ENA
Количество записей, соответствующих мРНК инсулина человека - 7185. Данные были получены с помощью запроса:
tax_tree(9606) AND description="insulin" AND mol_type="mrna"
Количество записей, соответствующих гену инсулина человека - 157. Данные были получены с помощью запроса:
tax_tree(9606) AND description="insulin" AND mol_type="genomic dna"
Для того, чтобы разобраться как работает Advanced Search на сайте ENA потребовалось много времени, так как он не является интуитивно понятным. После первого запроса, когда логика стала понятна, остальные запросы можно составить достаточно быстро, делать это визуально приятно, поэтому возможно в дальнейшем я буду пользоваться сайтом ENA.
Данные, полученные с помощью поисковой системы DDBJ (ARSA - база данных)
Количество записей, соответствующих мРНК инсулина человека - 7192. Данные были получены с помощью запроса:
(MolecularType:(mRNA)) AND (Definition:(insulin)) AND (Organism:(homo sapiens))
Количество записей, соответствующих гену инсулина человека - 2144. Данные были получены с помощью запроса:
(MolecularType:(DNA)) AND (Definition:(insulin))AND (Organism:(homo sapiens))
Поисковая система DDBJ оказалась более интуитивно понятной, она понравилась больше, чем ENA, но NCBI остается привычнее.