Характеристика сборки генома эукариотического организма

В данном практикуме предлагалось охарактеризовать сборку генома произвольного эукариотического организма, а также познакомиться с различными банками нуклеотидных последовательностей (NCBI, ENA, DDBJ) и научиться искать в них необходимые данные с помощью продвинутого поиска.

Таблица 1. Характеристики референсной сборки генома организма Manis javanica (Malayan pangolin). N50 — длина скэффолда (контига), для которого половина всех нуклеотидов сборки генома содержится в скэффолдах (контигах) такой же или большей длины. L50 — наименьшее число скэффолдов (контигов), в которых содержится половина всех нуклеотидов сборки.
Идентификатор GenBank Идентификатор RefSeq Уровень сборки генома Общий размер генома (п.н.) Количество хромосом Количество скэффолдов Количество контигов N50 для скэффолдов L50 для скэффолдов N50 для контигов L50 для контигов
GCA_040802235.1 GCF_040802235.1 Chromosome 2.6 Gb 20 62 150 141.8 Mb 7 61.2 Mb 15

Далее, с целью познакомиться с нуклеотидными базами данных NCBI, ENA и DDBJ был выбран белок пропердин, он же фактор P, он же CFP — complement factor properdin. Пропердин представляет собой глобулярный белок, обнаруженный в сыворотке крови высших животных, в частности, млекопитающих; его функция заключается в обеспечении врождённого иммунитета. Далее, при помощи Advanced Search на сайте NCBI была получена следующая информация:

1. Всего записей про пропердин в нуклеотидных базах данных было найдено 912, из них посвящено генам 12 (11 из GenBank, 1 из RefSeq), а мРНК белков с таким словом в названии — 867 (281 из GenBank, 586 из RefSeq). Запрос: properdin[Title]);

2. Из них всего записей в GenBank — 319, а в RefSeq — 593;

3. Записей, описывающих последовательности человека, для генов (Genomic DNA/RNA) — 9 (из них GenBank — 8, RefSeq — 1), мРНК (mRNA) — 25 (из них GenBank — 23, RefSeq — 2), суммарно из GenBank — 34, RefSeq — 3.

4. Однако далеко не все эти записи содержат последовательности, кодирующие белок с соответствующей функцией. Например, поиск по запросу properdin[Title] NOT activator[Title] выдаёт 893 записи. Это говорит о том, что 19 записей по запросу properdin[Title] содержат последовательности, кодирующие другой белок Adipsin (он же factor D properdin, или активатор С3-конвертазы).

При использовании продвинутого поиска на сайте ENA были получены следующие результаты: записей, описывающих мРНК (mRNA) белков человека — 23 (запрос: scientific_name="Homo sapiens" AND description="properdin" AND mol_type="mrna"); записей, описывающих гены белков человека (genomic DNA) — 8 (запрос: scientific_name="Homo sapiens" AND description="properdin" AND mol_type="genomic dna").

Аналогично проводился Advanced Search сайте DDBJ: записей для мРНК белков человека — 23 (запрос: Molecular Type — mRNA, Definition — Properdin, Organism — Homo sapiens), записей для генов белков человека — 7 (запрос: Molecular Type — DNA, Definition — PFC, Organism — Homo sapiens). Использовалось альтернативное название белка PFC, так как при поиске с названием properdin выдавалось 26 записей, из которых 19 были посвящены антителам пропердина.

В реальной ситуации я, скорее всего, воспользуюсь NCBI, так как этот сайт обладает наиболее удобным и интуитивно понятным функционалом с наглядной выдачей необходимой информации.

Дополнительный поиск геномов органелл

Было обнаружено, что в выбранной сборке генома малайского панголина также содержится митохондриальный геном, краткая характеристика которого приведена ниже. (см. Таблицу 2.). Эта информация была найдена на странице сборки генома в графе Number of organelles, где в базу данных RefSeq была дополнительно добавлена аннотированная последовательность т.н. MT (mitochondrion) хромосомы, о чём указано в разделе RefSeq and GenBank assembly differences. Остальная информация была найдена в базе NCBI Nucleotide RefSeq for assembly (Genetic compartmens — mitochondrion(1)).

Таблица 2. Краткая характеристика генома найденной органеллы — митохондрии.
Идентификатор записи (ACCESSION) Тип органеллы Число кодирующих последовательностей (CDS) Число генов рРНК Число генов тРНК Число псевдогенов
NC_026781 Митохондрия (mitochondrion) 13 2 22 0