Характеристика сборки генома эукариотического организма
В данном практикуме предлагалось охарактеризовать сборку генома произвольного эукариотического организма, а также познакомиться с различными банками нуклеотидных последовательностей (NCBI, ENA, DDBJ) и научиться искать в них необходимые данные с помощью продвинутого поиска.
| Идентификатор GenBank | Идентификатор RefSeq | Уровень сборки генома | Общий размер генома (п.н.) | Количество хромосом | Количество скэффолдов | Количество контигов | N50 для скэффолдов | L50 для скэффолдов | N50 для контигов | L50 для контигов |
|---|---|---|---|---|---|---|---|---|---|---|
| GCA_040802235.1 | GCF_040802235.1 | Chromosome | 2.6 Gb | 20 | 62 | 150 | 141.8 Mb | 7 | 61.2 Mb | 15 |
Далее, с целью познакомиться с нуклеотидными базами данных NCBI, ENA и DDBJ был выбран белок пропердин, он же фактор P, он же CFP — complement factor properdin. Пропердин представляет собой глобулярный белок, обнаруженный в сыворотке крови высших животных, в частности, млекопитающих; его функция заключается в обеспечении врождённого иммунитета. Далее, при помощи Advanced Search на сайте NCBI была получена следующая информация:
1. Всего записей про пропердин в нуклеотидных базах данных было найдено 912, из них посвящено генам 12 (11 из GenBank, 1 из RefSeq), а мРНК белков с таким словом в названии — 867 (281 из GenBank, 586 из RefSeq). Запрос: properdin[Title]);
2. Из них всего записей в GenBank — 319, а в RefSeq — 593;
3. Записей, описывающих последовательности человека, для генов (Genomic DNA/RNA) — 9 (из них GenBank — 8, RefSeq — 1), мРНК (mRNA) — 25 (из них GenBank — 23, RefSeq — 2), суммарно из GenBank — 34, RefSeq — 3.
4. Однако далеко не все эти записи содержат последовательности, кодирующие белок с соответствующей функцией. Например, поиск по запросу properdin[Title] NOT activator[Title] выдаёт 893 записи. Это говорит о том, что 19 записей по запросу properdin[Title] содержат последовательности, кодирующие другой белок Adipsin (он же factor D properdin, или активатор С3-конвертазы).
При использовании продвинутого поиска на сайте ENA были получены следующие результаты: записей, описывающих мРНК (mRNA) белков человека — 23 (запрос: scientific_name="Homo sapiens" AND description="properdin" AND mol_type="mrna"); записей, описывающих гены белков человека (genomic DNA) — 8 (запрос: scientific_name="Homo sapiens" AND description="properdin" AND mol_type="genomic dna").
Аналогично проводился Advanced Search сайте DDBJ: записей для мРНК белков человека — 23 (запрос: Molecular Type — mRNA, Definition — Properdin, Organism — Homo sapiens), записей для генов белков человека — 7 (запрос: Molecular Type — DNA, Definition — PFC, Organism — Homo sapiens). Использовалось альтернативное название белка PFC, так как при поиске с названием properdin выдавалось 26 записей, из которых 19 были посвящены антителам пропердина.
В реальной ситуации я, скорее всего, воспользуюсь NCBI, так как этот сайт обладает наиболее удобным и интуитивно понятным функционалом с наглядной выдачей необходимой информации.
Дополнительный поиск геномов органелл
Было обнаружено, что в выбранной сборке генома малайского панголина также содержится митохондриальный геном, краткая характеристика которого приведена ниже. (см. Таблицу 2.). Эта информация была найдена на странице сборки генома в графе Number of organelles, где в базу данных RefSeq была дополнительно добавлена аннотированная последовательность т.н. MT (mitochondrion) хромосомы, о чём указано в разделе RefSeq and GenBank assembly differences. Остальная информация была найдена в базе NCBI Nucleotide RefSeq for assembly (Genetic compartmens — mitochondrion(1)).
| Идентификатор записи (ACCESSION) | Тип органеллы | Число кодирующих последовательностей (CDS) | Число генов рРНК | Число генов тРНК | Число псевдогенов |
|---|---|---|---|---|---|
| NC_026781 | Митохондрия (mitochondrion) | 13 | 2 | 22 | 0 |