Я выбрала организм Canis lupus dingo - это dingo.
Некоторые показатели выбранной сборки представлены в таблице 1.
Рассмотрим некоторые термины, которые используем:
Контиг - это непрерывный фрагмент ДНК, собранный из перекрывающихся ридов без пробелов.
Cкэффолд - это набор контигов, упорядоченных и ориентированных относительно друг друга, с пробелами неизвестной длины.
N50 - наименьшая длина контига, такая что сумма длин контигов больших или равным этому превосходит 50% от общего размера сборки.
L50 - минимальное количество контигов, сумма длин которых покрывает 50% от общего размера сборки.
| Идентификатор GenBank | GCA_003254725.2 |
| Идентификатор RefSeq | GCF_003254725.2 |
| Уровень сборки генома | Chromosome |
| Общий размер генома (п.н.) | 2.3 * 10^9 |
| Число фрагментов генома в сборке | контигов - 228 скэффолдов - 159 |
| Contig N50 | 40.7 Mb |
| Contig L50 | 20 |
| Scaffold N50 | 64.3 Mb |
| Scaffold L50 | 14 |
Через NCBI FTP скачаем нуклеотидные последовательности генома, последовательности белков, последовательностигенома с аннотацией:
wget 'https://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/003/254/725/GCF_003254725.2_ASM325472v2/GCF_003254725.2_ASM325472v2_genomic.fna.gz'
wget 'https://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/003/254/725/GCF_003254725.2_ASM325472v2/GCF_003254725.2_ASM325472v2_protein.faa.gz'
wget 'https://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/003/254/725/GCF_003254725.2_ASM325472v2/GCF_003254725.2_ASM325472v2_genomic.gbff.gz'
Рассмотрим белок трипсин (trypsin).
Запрос: trypsin[Title]
Всего 22169 записей нуклеотидных баз данных посвящено генам и мРНК белков со словом "trypsin" в названии. Из них 6883 GenBank и 15274 RefSeq.
Добавим условие, чтобы это были данные человека:
Запрос: (trypsin[Title]) AND Homo sapiens[Organism]
Тогда всего будет 331 находка, из которых 280 GenBank, 51 RefSeq, 304 мРНК и 14 геномных ДНК/РНК.
Далеко не все из этих находок действительно кодируют трипсин. Например, среди выдачи есть много белков, похожих на трипсин, имеющих такие же каталитические домены, а так же ингибиторы трипсина.
Запрос: tax_eq(9606) AND description="trypsin" AND mol_type="mrna"
Найдено 583 записи для человеческих мРНК со словом "trypsin".
Запрос: tax_eq(9606) AND description="trypsin" AND mol_type="genomic dna"
Найдено 25 записей для человеческих генов белков.
Для mRNA езультаты получились такие же как в ENA: 583 для человечеких мРНК со словом "trypsin" в названии.
Для генов белков получилось 59.
В реальной ситуации я скорее воспользуюсь NCBI, т.к. там более понятный и привычный интерфейс.