Нуклеотидные банки данных

Выберем качественную сборку генома эукариотического организма

Я выбрала организм Canis lupus dingo - это dingo.

Некоторые показатели выбранной сборки представлены в таблице 1.
Рассмотрим некоторые термины, которые используем:
Контиг - это непрерывный фрагмент ДНК, собранный из перекрывающихся ридов без пробелов.
Cкэффолд - это набор контигов, упорядоченных и ориентированных относительно друг друга, с пробелами неизвестной длины.
N50 - наименьшая длина контига, такая что сумма длин контигов больших или равным этому превосходит 50% от общего размера сборки.
L50 - минимальное количество контигов, сумма длин которых покрывает 50% от общего размера сборки.

Таблица 1. Характеристики сборки.
Идентификатор GenBank GCA_003254725.2
Идентификатор RefSeq GCF_003254725.2
Уровень сборки генома Chromosome
Общий размер генома (п.н.) 2.3 * 10^9
Число фрагментов генома в сборке контигов - 228
скэффолдов - 159
Contig N50 40.7 Mb
Contig L50 20
Scaffold N50 64.3 Mb
Scaffold L50 14

Скачаем некоторые данные для выбранного организма.

Через NCBI FTP скачаем нуклеотидные последовательности генома, последовательности белков, последовательностигенома с аннотацией:
wget 'https://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/003/254/725/GCF_003254725.2_ASM325472v2/GCF_003254725.2_ASM325472v2_genomic.fna.gz'
wget 'https://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/003/254/725/GCF_003254725.2_ASM325472v2/GCF_003254725.2_ASM325472v2_protein.faa.gz'
wget 'https://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/003/254/725/GCF_003254725.2_ASM325472v2/GCF_003254725.2_ASM325472v2_genomic.gbff.gz'

Поисковые системы NCBI и ENA

Рассмотрим белок трипсин (trypsin).

Проведем поиск по NCBI.

Запрос: trypsin[Title]
Всего 22169 записей нуклеотидных баз данных посвящено генам и мРНК белков со словом "trypsin" в названии. Из них 6883 GenBank и 15274 RefSeq.
Добавим условие, чтобы это были данные человека:
Запрос: (trypsin[Title]) AND Homo sapiens[Organism]
Тогда всего будет 331 находка, из которых 280 GenBank, 51 RefSeq, 304 мРНК и 14 геномных ДНК/РНК.
Далеко не все из этих находок действительно кодируют трипсин. Например, среди выдачи есть много белков, похожих на трипсин, имеющих такие же каталитические домены, а так же ингибиторы трипсина.

Проведем поиск по ENA

Запрос: tax_eq(9606) AND description="trypsin" AND mol_type="mrna"
Найдено 583 записи для человеческих мРНК со словом "trypsin".
Запрос: tax_eq(9606) AND description="trypsin" AND mol_type="genomic dna"
Найдено 25 записей для человеческих генов белков.

Проведем поиск по DDBJ

Для mRNA езультаты получились такие же как в ENA: 583 для человечеких мРНК со словом "trypsin" в названии.
Для генов белков получилось 59.

Подведем итоги

В реальной ситуации я скорее воспользуюсь NCBI, т.к. там более понятный и привычный интерфейс.