Практикум 7. Нуклеотидные банки данных

Задание 1

Латинское название организма: Penicillium digitatum

Русское название организма: Пеницилл пальчатый

Используя фильтры поиска по аннотированным сборкам с качеством на уровне хромосомы или выше, я получил одну сборку генома Penicillium digitatum, которая являктся референсной.

Рис.1 - Поисковый запрос на сайте NCBI Datasets

Задание 2

Таблица 1 - Характеристика сборки генома
Параметр Значение
Идентификатор GenBank GCA_016767815.1
Идентификатор RefSeq GCF_016767815.1
Уровень сборки генома Complete
Общий размер генома 26,3 миллионов нуклеотидов
Число фрагментов генома в сборке 6 хромосом
Scaffold N50 4.1 миллионов нуклеотидов
Scaffold L50 3 скаффолда
Contig N50 4.1 миллионов нуклеотидов
Contig L50 3 контига

Где Contig N50 — максимальная длина контига, для которого контиги такой же или большей длины содержат в себе половину всех нуклеотидов сборки.

Где Contig L50 — минимальное число контигов, в которых содержится половина всех нуклеотидов сборки генома.

Определения Scaffold N50 и Scaffold L50 аналогичны определениям Contig N50 и Contig L50 с той лишь разницей, что одни характеризуют контиги (максимальная последовательность, собранная из перекрывающихся ридов), а другие скаффолды (последовательность контигов, между которыми остаются неизвестные участки. Источник скаффолдов - парноконцевые чтения).

Задание 3

Были скачаны 3 файла из NCBI FTP:

1)GCF_016767815.1_ASM1676781v1_genomic.fna.gz

2)GCF_016767815.1_ASM1676781v1_protein.faa.gz

3)GCF_016767815.1_ASM1676781v1_genomic.gbff.gz

Задание 4

NCBI

Я выбрал белок Histone H2A для поиска в NCBI nucleotide и использовал поисковой запрос "Histone H2A[Title]":

Всего записей с Histone H2A в названии: 20633

Из RefSeq: 17,404 (17227 из мРНК)

Из GenBank: 3,227 (775 из генома; 2431 из мРНК) - ещё 16 записей из transcribed RNA

Затем при помощи поискового запроса Histone H2A[Title] AND Homo[Organism] я нашел все записи, описывающие последовательности человека:

Из RefSeq: 3 (все 3 из мРНК)

Из GenBank: 87 (20 из генома, 66 из мРНК)

Оказалось что не во всех записях описывается Histone H2A, в некоторых описывается AlkBH1 - диоксигеназа гистона H2A, это можно проверить по запросу "H2AHistone H2A[Title] NOT alkB*[Gene Name]"

Этот запрос выдаёт 19615 записей вместо стандартных 20633, что означает, что примерно в 1000 записях последовательность кодирует не гистон, а фермент, катализирующий реакцию присоединения к гистону двух кислородов

ENA

В ENA advanced search я выбрал:

Data Type: Nucleotide sequences

Query: description="Histone H2A" AND scientific_name="Homo sapiens" AND mol_type="mrna"

Этот запрос позволит найти мне среди всех нуклеотидных последовательностей человеческие мРНК, которые содержат в описании Histone H2A. Таких записей 864

А запрос:

Data Type: Nucleotide sequences

Query: description="Histone H2A" AND scientific_name="Homo sapiens" AND mol_type="genomic dna"

Позволит найти мне записи человеческих генов, содержащих Histone H2A в описании. Таких записей нашлось 23

DDBJ