Отчёт по практической работе 7

Для выполнения работы была выбрана сборка генома Длиннохвостой неясыти (лат. Strix uralensis). Информация о сборке представлена в таблице 1.

Таблица 1 Некоторые характеристики сборки генома Strix uralensis
Идентификатор GenBank Идентификатор RefSeq Уровень сборки Размер генома, п.н. Число контигов N50 контигов*, п.н. L50 контигов** Число скэффолдов N50 скэффолдов*, п.н. L50 скэффолдов**
GCA_047716275.1 GCF_047716275.1 Chromosome 1,5 *10^9 714 16.4 Mb 26 511 90.2 Mb 6

*N50 - число, равное длине контига/скэффолда, для которого 50% всех нуклеотидов сборки содержится в контигах/скэффолдах той же и большей длины;

**L50 - наименьшее число контигов/скэффолдов, в которых содержится 50% всех нуклеотидов сборки.

Таким образом, в данной сборке 50% её длины покрывают 6 наибольших скэффолдов, из которых самый короткий имеет длину примерно 94,6 * 10^6 п.н. Тот же процент длины сборки покрывает 26 контигов, наименьший из которых имеет длину примерно 17,2 * 10^6 п.н

Работа с поисковыми системами NCBI, ENA и DDBJ

Для работы с поисковыми системами в качестве предмета поиска был выбран пепсин. Для поиска всех записей со словом pepsin в названии в базе данных NCBI Nucleotide был использован запрос 'pepsin[title]'. В результате было найдено 2417 записей, из них 14 посвящено генам (все из GenBank), 2388 - мРНК (218 - из GanBank, 2170 - из RefSeq).

Запрос 'pepsin[Title] AND Human[Organism]' выводит лишь записи, описывающие последовательности человека. Их было найдено 10, все они посвящены мРНК (из них 8 - из GenBank, 2 - из RefSeq).

Не все записи со словом pepsin в названии содержат информацию о последовательностях, кодирующих пепсин. Так, запрос 'pepsin[Title] not inhibitor*[title]' выводит 2317 записей. То есть как минимум 100 записей со словом pepsin в названии содержат информацию об ингибиторах (в том числе и самого пепсина) или связанных с ними белками, а не о гидролазе пепсин.

Также был произведен поиск последовательностей со словом pepsin в названии в ENA. Поиск с условиями 'description="pepsin" AND mol_type="mrna"' вывел 3748 записей, то есть в ENA хранится 3748 записей, описывающих мРНК, в названии которых есть слово pepsin. Запрос 'scientific_name="Homo sapiens" AND description="pepsin" AND mol_type="genomic dna"' не выводит ни одного результата, а значит в ENA нет записей, описывающих гены человека, название которых включает слово pepsin.

Произведен поиск последовательностей со словом pepsin в названии в DDBJ. Соответствующих записей, описывающих последовательности мРНК было найдено 3750. Записей же, описывающих ДНК человека найдено не было.

Сравнив 3 поисковые системы, я пришёл к выводу о том, что для меня наиболее удобной является система поиска NCBI. Она показалась мне наиболее удобной и понятной и потому в реальной ситуации я бы работал именно с ней. Интерфейс же систем поиска ENA и DDBJ мне показался слишком перегруженным и сравнительно неудобным для освоения.