Нуклеотидные банки данных

Петренко Павел

Факультет биоинженерии и биоинформатики, Московский Государственный Университет имени М.В.Ломоносова

Выбор сборки генома эукариотического организма

Для своего исследования я решил взять крглого червя Caenorhabditis elegans. Нам о нём рассказывали на молекулярной биологии, и мне он понравился больше других из всех модельных организмов. На сайте NCBI Datasets я сделал запрос по родовому и видовому названию "Caenorhabditis elegans". По этому запросу было найдено 58 сборок, лишь одна из которых (референсная) имела гены, аннотированные в RefSeq и GenBank (остальные только в GenBank). Я остановился на референсной сборке генома C. elegans. Организм имеет 6 хромосом в диплоидном наборе. Уровень сборки - Complete Genome, то есть все хромосомы не содержат пробелов (гэпов) и не имеют участков из 10 или более неопределенных оснований (Ns), отсутствуют неразмещенные или нелокализованные скэффолды, и присутствуют все ожидаемые хромосомы (т.е. сборка не характеризуется как имеющая частичное представление генома). Плазмиды и органеллы могут быть как включены в сборку, так и отсутствовать, но если они присутствуют, то их последовательности не содержат пробелов.

C. elegans — это не опасный, не заразный, не патогенный, не паразитический организм. Он мал, достигает около 1 мм в длину, и обитает в почве — особенно в гниющих растительных остатках — во многих частях света, где выживает, питаясь микробами, такими как бактерии. C. elegans — это свободноживущая нематода. Существует два пола: самооплодотворяющийся гермафродит и самец. Взрослая особь по сути представляет собой трубку (наружный кутикулярный покров), содержащую две меньшие трубки (глотку и кишку) и репродуктивную систему. Большую часть объема животного занимает репродуктивная система. Из 959 соматических клеток гермафродита около 300 являются нейронами. Нейронные структуры включают набор органов чувств в голове, которые опосредуют реакции на вкус, запах, температуру и прикосновение — и, хотя у C. elegans нет глаз, он может слабо реагировать на свет. Среди других нейронных структур — переднее нервное кольцо с брюшным нервным тяжом, идущим вдоль тела. (Также есть меньший спинной нервный тяж.) У него 81 мышечная клетка. C. elegans двигается с помощью четырех продольных лент мышц, расположенных парами суб-дорсально и суб-вентрально. Попеременное сгибание и расслабление создает дорсально-вентральные волны вдоль тела, продвигая животное вперед. Развитие и функционирование этого диплоидного организма закодировано в 17800 различных генах. Источник

Характеристики сборки

Таблица 1. Характеристики сборки.

Параметр	Значение
Идентификатор GenBank	GCA_000002985.3
Идентификатор RefSeq	GCF_000002985.6
Уровень сборки генома	Complete Genome
Общий размер генома	100.3 Mb
Число фрагментов генома в сборке	6
N50 для контигов	17.5 Mb
L50 для контигов	3
N50 для скэффолдов	17.5 Mb
L50 для скэффолдов	3

Параметр N50 означает длину контига/скэффолда, для которого половина (50%) всех нуклеотидов сборки содержится в контигах/скэффолдах такой и большей длины. Параметр L50 - это число контигов/скэффолдов (наименьшее), в которых содержится половина (50%) всех нуклеотидов сборки.

Таким образом, из данных таблицы мы понимаем, что в данной сборке отсутствуют контиги и скэффолды, а данные N50 и L50 для контигов/скэффолдов рассчитываются на основе хромосом (в принципе это правильно, потому что Complete Genome - это наивысший уровень сборки генома). Так, N50 - это размер четыёртой хромосомы (так как она является промежуточной по размеру), а L50 - половина числа хромосом.

Файлы сборки

С помощью NCBI FTP были скачаны следующие файлы сборки:

GCA_000002985.3_WBcel235_genomic.fna.gz - Нуклеотидные последовательности генома (в формате FASTA)

GCA_000002985.3_WBcel235_genomic.gbff.gz - Последовательности генома с аннотацией (в формате GBFF)

GCA_000002985.3_WBcel235_protein.faa.gz - Последовательности белков (в формате FASTA)

Знакомство с поисковыми системами ENA и NCBI

Для исследования я выбрал гемоглобин (он как раз был предложен в задании).

NCBI:

Количество записей нуклеотидных баз данных посвящено генам и мРНК гемоглобина: 40120. Запрос:

hemoglobin[Title] AND (mRNA[Filter] OR "genomic dna"[Filter])

Количество записей нуклеотидных баз данных из GenBank: 24645. Запрос:

(hemoglobin[Title]) AND ("genomic dna"[Filter] OR mRNA[Filter]) AND genbank[Filter]

Количество записей нуклеотидных баз данных из RefSeq: 10712. Запрос:

(hemoglobin[Title]) AND ("genomic dna"[Filter] OR mRNA[Filter]) AND refseq[Filter]

Количество записей нуклеотидных баз данных из GenBank для человека: 10605. Запрос:

(hemoglobin[Title]) AND ("genomic dna"[Filter] OR mRNA[Filter]) AND genbank[Filter] AND "Homo sapiens"[Organism]

Количество записей нуклеотидных баз данных из RefSeq для человека: 22. Запрос:

(hemoglobin[Title]) AND ("genomic dna"[Filter] OR mRNA[Filter]) AND refseq[Filter] AND "Homo sapiens"[Organism]

Таблица 2. Записи, описывающие последовательности человека.

	mRNA	genomic dna
GenBank	9382	1223
RefSeq	13	9

Попробуем проверить, все ли белки выполняют необходимую функцию, для этого проведём более жёсткий отбор, где укажем необходимые нам названия кодируемых белков, которые непосредственно переносят ткислород (HBA1, HBA2, HBB, HBD, HBG1, HBG2). При поиске таких белков по всем организмам, получилось 4782 результата. Запрос:

hemoglobin[Title] AND (mRNA[Filter] OR "genomic dna"[Filter]) AND (HBA1[Gene Name] OR HBA2[Gene Name] OR HBB[Gene Name] OR HBD[Gene Name] OR HBG1[Gene Name] OR HBG2[Gene Name]) NOT pseudogene[All Fields]

Такое различие, почти в 10 раз, объясняется тем, что многие белки выполняли иные функции, такие как: перенос NO, буфферная, некоторые специфичные функции. Также были отсеяны псевдогены (68).

ENA:

Записи, описывающие мРНК человека, чьи название содержат гемоглобин: 9390. Запрос:

tax_eq(9606) AND description="hemoglobin" AND mol_type="mrna"

Записи, описывающие гены белков человека, чьи название содержат гемоглобин: 1246. Запрос:

tax_eq(9606) AND description="hemoglobin" AND mol_type="genomic dna"

В принципе результаты NCBI и ENA согласуются друг с другом. Небольшое различие в количестве результатов может быть вызвано разным временем обновления баз данных, разными алгоритмами обработки дупликатов или разным определением генов в алоритмах (например, частичные гены могут игнорироваться).