Для выполнения работы была выбрана сборка генома Длиннохвостой неясыти (лат. Strix uralensis). Информация о сборке представлена в таблице 1.
| Идентификатор GenBank | Идентификатор RefSeq | Уровень сборки | Размер генома, п.н. | Число контигов | N50 контигов*, п.н. | L50 контигов** | Число скэффолдов | N50 скэффолдов*, п.н. | L50 скэффолдов** |
|---|---|---|---|---|---|---|---|---|---|
| GCA_047716275.1 | GCF_047716275.1 | Chromosome | 1,5 *10^9 | 714 | 16.4 Mb | 26 | 511 | 90.2 Mb | 6 |
*N50 - число, равное длине контига/скэффолда, для которого 50% всех нуклеотидов сборки содержится в контигах/скэффолдах той же и большей длины;
**L50 - наименьшее число контигов/скэффолдов, в которых содержится 50% всех нуклеотидов сборки.
Таким образом, в данной сборке 50% её длины покрывают 6 наибольших скэффолдов, из которых самый короткий имеет длину примерно 94,6 * 10^6 п.н. Тот же процент длины сборки покрывает 26 контигов, наименьший из которых имеет длину примерно 17,2 * 10^6 п.н
Для работы с поисковыми системами в качестве предмета поиска был выбран пепсин. Для поиска всех записей со словом pepsin в названии в базе данных NCBI Nucleotide был использован запрос 'pepsin[title]'. В результате было найдено 2417 записей, из них 14 посвящено генам (все из GenBank), 2388 - мРНК (218 - из GanBank, 2170 - из RefSeq).
Запрос 'pepsin[Title] AND Human[Organism]' выводит лишь записи, описывающие последовательности человека. Их было найдено 10, все они посвящены мРНК (из них 8 - из GenBank, 2 - из RefSeq).
Не все записи со словом pepsin в названии содержат информацию о последовательностях, кодирующих пепсин. Так, запрос 'pepsin[Title] not inhibitor*[title]' выводит 2317 записей. То есть как минимум 100 записей со словом pepsin в названии содержат информацию об ингибиторах (в том числе и самого пепсина) или связанных с ними белками, а не о гидролазе пепсин.
Также был произведен поиск последовательностей со словом pepsin в названии в ENA. Поиск с условиями 'description="pepsin" AND mol_type="mrna"' вывел 3748 записей, то есть в ENA хранится 3748 записей, описывающих мРНК, в названии которых есть слово pepsin. Запрос 'scientific_name="Homo sapiens" AND description="pepsin" AND mol_type="genomic dna"' не выводит ни одного результата, а значит в ENA нет записей, описывающих гены человека, название которых включает слово pepsin.
Произведен поиск последовательностей со словом pepsin в названии в DDBJ. Соответствующих записей, описывающих последовательности мРНК было найдено 3750. Записей же, описывающих ДНК человека найдено не было.
Сравнив 3 поисковые системы, я пришёл к выводу о том, что для меня наиболее удобной является система поиска NCBI. Она показалась мне наиболее удобной и понятной и потому в реальной ситуации я бы работал именно с ней. Интерфейс же систем поиска ENA и DDBJ мне показался слишком перегруженным и сравнительно неудобным для освоения.