Практикум 7. Нуклеотидные банки данных

В этом практикуме мне надо было выбрать геном эукариотического организма. Поиск выглядел следующим образом: Canis lupus (gray wolf). По данному запросу было найдено 34 сборки, из которых 3 имели статус референсной. Я решил выбрать сборку динго (Canis lupus dingo). Данная сборка имеет уровень Chromosome.

Динго — это дикая собака, которая является единственным плацентарным хищником, автохтонным для Австралии. В отличие от домашних собак, динго не лают, а воют и рычат, образуя стаи для охоты.

В таблице 1 представлена информация про выбранную сборку генома динго. Пояснения к параметрам:


N50 — это ДЛИНА контига/скэффолда, для которой 50% всех нуклеотидов сборки (то есть всего набора контигов/скэффолдов) находится в контигах ТАКОЙ же и БОЛЬШЕЙ длины

L50 — это наименьшее ЧИСЛО контигов/скэффолдов, в которых содержится 50% всех нуклеотидов сборки.

У данных параметов сборок есть число, выделенное жирным шрифтом, которое показывет процент нуклеотидов во всей сборке.

Таблица 1. Данные о геномной сборке.
Идентификатор Genbank GCA_003254725.2
Идентификатор RefSeq GCF_003254725.2
Уровеь сборки генома Chromosome
Общий размер генома (п.н.) 2,3 Gb
Число контигов 228
Число скэффолдов 159
N50 контигов 40.7 Mb
L50 контигов 20
N50 скэффолдов 64.3 Mb
L50 скэффолдов 14

Поисковые системы

Я решил взять популярный белок мизоин (myosin), который участвует в мышечном сокращении. Пользуясь Advanced Search на сайте NCBI по базе данных Nucleotide я нашел различную информацию по этому белку.

1. Сколько всего записей нуклеотидных баз данных посвящено генам и мРНК белков с таким словом в названии?

Поисковый запрос: myosin[Title]. Было найдено 205437 результатов. Далее найдем количество генов, содержащих в своем названии myosin. В поле Molecule types слева я выбрал genomic DNA/RNA. Всего получилось 15859 результатов. Затем в поле Molecule types я выбрал mRNA. Нашлось 184862 результатов. Из этих данных сразу видно, что записей мРНК миозина гораздо больше, чем записей гена миозина в ДНК.

2. Сколько из них — из GenBank, а сколько — из RefSeq?

Справа в фильтре Source databases написано, что записей из RefSeq'а всего 164401, а из GenBank'a - 41028.

3. Сколько их них (отдельно для GenBank и RefSeq, мРНК и участков генома) — записи, описывающие последовательности человека?

Запрос: (myosin[Title]) AND Homo Sapiens[Organism]. Всего было найдено 6421 записей.

1. genomic DNA/RNA и RefSeq. Слева я выбрал соответствующие фильтры. Всего нашлось 49 результатов.

2. genomic DNA/RNA и GenBank. Всего нашлось 126 результатов.

3. mRNA и RefSeq. Всего нашлось 965 результатов.

4. mRNA и GenBank. Всего нашлось 5154 результатов.

4. По возможности выясните, все ли эти записи действительно содержат последовательности, кодирующие белки с соответствующей функцией

Поиск выглядел следующим образом: (Myosin[Title]) NOT Binding[Title] NOT linker[Title]. Было найдено 186759 записей. Можно сделать вывод о том, что 18588 записей содержат информацию о белках, которые связываются с миозином, которые выполняют, по видимому, регуляторную функцию.

Поиск в базе данных ENA


Чтобы найти, сколько в ENA записей, описывающих: (а) мРНК и (б) гены белков человека, чье название содержит myosin, были составлены следующие запросы:

а) для мРНК: tax_division:HUM AND molecule_type:mRNA AND description:myosin. Было найдено 5437 результатов.

б) для геномной ДНК: tax_division:HUM AND molecule_type:DNA AND description:myosin. Было найдено 16011 результатов.

Поиск в базе данных DDBJ

Задача поиска точно такая же, как и в базе данных ENA.

а) для мРНК: Definition:(myosin) AND Division:(HUM) AND MolecularType:(mRNA). Было найдено 518 результатов.

б) для геномной ДНК: Definition:(myosin) AND Division:(HUM) AND MolecularType:(DNA). Поиск выдал 218 записей.

Есть ли в выбранной сборке геномы органелл?

Чтобы найти информацию про то, есть ли в выбранной сборке (GCF_003254725.2), я проанализировал веб-интерфейс данной сборки в NCBI (рис. 1). К сожалению, у выбранной мною сборки нет генома митохондрий, однако известна последовательность Х-хромосомы.

Картинка

Рисунок 1. Информация про известные последовательности хромосом сборки Canis lupus dingo, GCF_003254725.2. Как видно из данного рисунка, митохондриальный геном у данной сборки отсутствует.

Для того, чтобы описать митохондриальный геном, мне пришлось выбрать другую референсную сборку. Для этого я повторил запрос (Canis lupus (gray wolf)) и выбрал другую референсную сборку, которая принадлежит немецкой овчарки (Taxon - Canis lupus familiaris (dog), Breed - German Shepherd, ID сборки в GenBank - GCF_011100685.1). Эта геномная сборка изображена на рис. 2. Как можно заметить, для этой сборки известен митохондриальный геном, поэтому дальнейший анализ митохондриального (МХ) генома будет проводиться по этой сборке.

Картинка

Рисунок 2. Информация про известные последовательности хромосом сборки German shepherd, GCF_011100685.1. Как видно по рисунку, в данной сборке есть информация про митохондриальным геном.


Таблица 2. Данные о митохондриальном геноме немецой овчарки, GCF_011100685.1.
Идентификатор записи (ACCESSION) CM022001 JAAHUQ010000000
Тип органеллы Митохондрия
Число кодирующих последовательностей (CDS) ?
Число генов рРНК ?
Число генов тРНК ?
Число псевдогенов ?

По всей видимости, нуклеотидная запись, относящаяся к геному митохондрии исследуемого эукариота, очень плохо аннотирована, так как никакой информации по кодирующим участкам не было найдено. Возможно, это связана с тем, что данная запись находится в GenBank, а не в RefSeq.