В этом практикуме мне надо было выбрать геном эукариотического организма. Поиск выглядел следующим образом: Canis lupus (gray wolf). По данному запросу было найдено 34 сборки, из которых 3 имели статус референсной. Я решил выбрать сборку динго (Canis lupus dingo). Данная сборка имеет уровень Chromosome.
Динго — это дикая собака, которая является единственным плацентарным хищником, автохтонным для Австралии. В отличие от домашних собак, динго не лают, а воют и рычат, образуя стаи для охоты.
В таблице 1 представлена информация про выбранную сборку генома динго. Пояснения к параметрам:
N50 — это ДЛИНА контига/скэффолда, для которой 50% всех нуклеотидов сборки (то есть всего набора контигов/скэффолдов) находится в контигах ТАКОЙ же и БОЛЬШЕЙ длины
L50 — это наименьшее ЧИСЛО контигов/скэффолдов, в которых содержится 50% всех нуклеотидов сборки.
У данных параметов сборок есть число, выделенное жирным шрифтом, которое показывет процент нуклеотидов во всей сборке.
| Идентификатор Genbank | GCA_003254725.2 |
| Идентификатор RefSeq | GCF_003254725.2 |
| Уровеь сборки генома | Chromosome |
| Общий размер генома (п.н.) | 2,3 Gb |
| Число контигов | 228 |
| Число скэффолдов | 159 |
| N50 контигов | 40.7 Mb |
| L50 контигов | 20 |
| N50 скэффолдов | 64.3 Mb |
| L50 скэффолдов | 14 |
Я решил взять популярный белок мизоин (myosin), который участвует в мышечном сокращении. Пользуясь Advanced Search на сайте NCBI по базе данных Nucleotide я нашел различную информацию по этому белку.
1. Сколько всего записей нуклеотидных баз данных посвящено генам и мРНК белков с таким словом в названии?
Поисковый запрос: myosin[Title]. Было найдено 205437 результатов. Далее найдем количество генов, содержащих в своем названии myosin. В поле Molecule types слева я выбрал genomic DNA/RNA. Всего получилось 15859 результатов. Затем в поле Molecule types я выбрал mRNA. Нашлось 184862 результатов. Из этих данных сразу видно, что записей мРНК миозина гораздо больше, чем записей гена миозина в ДНК.
2. Сколько из них — из GenBank, а сколько — из RefSeq?
Справа в фильтре Source databases написано, что записей из RefSeq'а всего 164401, а из GenBank'a - 41028.
3. Сколько их них (отдельно для GenBank и RefSeq, мРНК и участков генома) — записи, описывающие последовательности человека?
Запрос: (myosin[Title]) AND Homo Sapiens[Organism]. Всего было найдено 6421 записей.
1. genomic DNA/RNA и RefSeq. Слева я выбрал соответствующие фильтры. Всего нашлось 49 результатов.
2. genomic DNA/RNA и GenBank. Всего нашлось 126 результатов.
3. mRNA и RefSeq. Всего нашлось 965 результатов.
4. mRNA и GenBank. Всего нашлось 5154 результатов.
4. По возможности выясните, все ли эти записи действительно содержат последовательности, кодирующие белки с соответствующей функцией
Поиск выглядел следующим образом: (Myosin[Title]) NOT Binding[Title] NOT linker[Title]. Было найдено 186759 записей. Можно сделать вывод о том, что 18588 записей содержат информацию о белках, которые связываются с миозином, которые выполняют, по видимому, регуляторную функцию.
Чтобы найти, сколько в ENA записей, описывающих: (а) мРНК и (б) гены белков человека, чье название содержит myosin, были составлены следующие запросы:
а) для мРНК: tax_division:HUM AND molecule_type:mRNA AND description:myosin. Было найдено 5437 результатов.
б) для геномной ДНК: tax_division:HUM AND molecule_type:DNA AND description:myosin. Было найдено 16011 результатов.
Задача поиска точно такая же, как и в базе данных ENA.
а) для мРНК: Definition:(myosin) AND Division:(HUM) AND MolecularType:(mRNA). Было найдено 518 результатов.
б) для геномной ДНК: Definition:(myosin) AND Division:(HUM) AND MolecularType:(DNA). Поиск выдал 218 записей.
Чтобы найти информацию про то, есть ли в выбранной сборке (GCF_003254725.2), я проанализировал веб-интерфейс данной сборки в NCBI (рис. 1). К сожалению, у выбранной мною сборки нет генома митохондрий, однако известна последовательность Х-хромосомы.
Для того, чтобы описать митохондриальный геном, мне пришлось выбрать другую референсную сборку. Для этого я повторил запрос (Canis lupus (gray wolf)) и выбрал другую референсную сборку, которая принадлежит немецкой овчарки (Taxon - Canis lupus familiaris (dog), Breed - German Shepherd, ID сборки в GenBank - GCF_011100685.1). Эта геномная сборка изображена на рис. 2. Как можно заметить, для этой сборки известен митохондриальный геном, поэтому дальнейший анализ митохондриального (МХ) генома будет проводиться по этой сборке.
| Идентификатор записи (ACCESSION) | CM022001 JAAHUQ010000000 |
| Тип органеллы | Митохондрия |
| Число кодирующих последовательностей (CDS) | ? |
| Число генов рРНК | ? |
| Число генов тРНК | ? |
| Число псевдогенов | ? |
По всей видимости, нуклеотидная запись, относящаяся к геному митохондрии исследуемого эукариота, очень плохо аннотирована, так как никакой информации по кодирующим участкам не было найдено. Возможно, это связана с тем, что данная запись находится в GenBank, а не в RefSeq.