Для данного задания я выбрал геномную сборку организма Garra rufa (рис. 1). Для поиска я использовал фильтр, чтобы сборка была 2025 года и уровня выше Chromosome. Было найдено много результатов. Просмотрев некотрые из них, я выбрал именно эту рыбку, так как про неё было указано, что у неё больше 50 % генов кодируют малые РНК (таких генов больше чем тех, которые кодируют белки. Для меня это показалось необычным). Ниже, в таблице 1, приведена информация о некоторых характеристиках этой сборки.
Таблица 1. Характеристики сборки
Идентификатор GenBank
GCA_049309525.1
Идентификатор RefSeq
GCF_049309525.1
Уровень сборки генома
Chromosome
Общий размер генома (п.н.)
1,4 Gb
Число хромосом
25
Число скэффолдов
1 000
Scaffold N50
49,3 Mb
Scaffold L50
12
Число контигов
15 924
Contig N50
132,1 kb
Contig L50
3 054
Рисунок 1. Изображение рыбы Garra rufa
Уровень сборки Chromosome озночает, что существует последовательность одной или нескольких хромосом. Это может быть полностью секвенированная хромосома без пробелов, или хромосома, содержащая скэффолды или контиги с пробелами между ними. Также могут быть неразмещённые или нелокализованные скэффолды.
Указано, что хромосом 25. На самом деле у этой рыбы 50 хромосом (2n набор), то есть 25 пар хромосом, что говорит о хорошем качестве сборки.
Сборка генома была указана там же, где производился поиск эукариота (в колонке Assembly).
L50 - число контигов (скэффолдов) (наименьшее), в которых содержится половина (50%) всех нуклеотидов сборки.
N50 - длина контига (скэффолда), для которого половина (50%) всех нуклеотидов сборки содержится в контигах (скэффолдах) такой и большей длины.
Также были скачаны файлы с геномом этого организма, а также всеми его белками (на локальный компьютер).
Знакомство с поисковыми запросами в NCBI
Мною был выбран белок пепсин. Далее приведены запросы и описание того, что они находят.
pepsin[Title] AND (biomol_genomic[PROP] OR biomol_mrna[PROP]) - с помощью этого запроса были найдены записи (2 402) посвещённые генам и mRNA выбранного белка (пепсин). Название моего белка встречается в названии записи.
pepsin[Title] AND ((biomol_genomic[PROP] OR biomol_mrna[PROP]) AND ddbj_embl_genbank[filter]) - с помощью этого запроса можно узнать, сколько записей найденных из GenBank (в моём случае 232).
pepsin[Title] AND ((biomol_genomic[PROP] OR biomol_mrna[PROP]) AND refseq[filter]) - с помощью этого запроса можно узнать, сколько записей найденных из RefSeq (в моём случае 2 170).
pepsin[Title] AND ("Homo sapiens"[Organism] AND biomol_genomic[PROP] AND ddbj_embl_genbank[filter]) - с помощью этого запроса можно узнать, сколько записей о человеческом белке найдено в GenBank и содержат информацию об участке генома (в моём случае 0).
pepsin[Title] AND ("Homo sapiens"[Organism] AND biomol_mrna[PROP] AND ddbj_embl_genbank[filter]) - с помощью этого запроса можно узнать, сколько записей о человеческом белке найдено в GenBank и содержат информацию о mRNA (в моём случае 8).
pepsin[Title] AND ("Homo sapiens"[Organism] AND biomol_genomic[PROP] AND refseq[filter]) - с помощью этого запроса можно узнать, сколько записей о человеческом белке найдено в RefSeq и содержат информацию об участке генома (в моём случае 0).
pepsin[Title] AND ("Homo sapiens"[Organism] AND biomol_mrna[PROP] AND refseq[filter]) - с помощью этого запроса можно узнать, сколько записей о человеческом белке найдено в RefSeq и содержат информацию о mRNA (в моём случае 2).
Не все записи содержат последовательность именно пепсина. Есть его предшественики.
Знакомство с поисковыми запросами в ENA
Необходимо было составить два запроса:
tax_eq(9606) AND description="pepsin" AND mol_type="genomic dna" - с помощью этого запроса можно узнать, какие запси посвящены гену пепсина человека (в моём случае 0).
tax_eq(9606) AND description="pepsin" AND mol_type="mrna" - с помощью этого запроса можно узнать, какие запси посвящены mRNA пепсина человека (в моём случае 8).
Эта система поиска мне понравилась меньше. Для меня она менее понятная и не слишком интуитивная.
Знакомство с поисковыми запросами в DDBJ
Необходимо было составить два запроса:
(MolecularType:(DNA)) AND (Definition:(pepsin)) AND (Organism:(Homo sapines)) - с помощью этого запроса можно узнать, какие запси посвящены гену пепсина человека (в моём случае 0).
(MolecularType:(mRNA)) AND (Definition:(pepsin)) AND (Organism:(Homo sapines)) - с помощью этого запроса можно узнать, какие запси посвящены mRNA пепсина человека (в моём случае 8).
Эта система поиска мне понравилась немного больше, чем в ENA, но всё ещё меньше, чем NCBI.