Работа со сборкой генома Caenorhabditis elegans

Характеристики сборки

Для этого практикума мной был выбран геном моедльного объекта Caenorhabditis elegans

Таблица 1. Характеристика сборки WBcel235
Идентификатор GenBank GCA_000002985.3
Идентификатор RefSeq GCF_000002985.6
Уровень сборки генома Complete Genome
Общий размер генома (п.н.) 100.3 Mb
Число фрагментов генома в сборке 6
Contig N50 17.5 Mb
Contig L50 3
Scaffold N50 17.5 Mb
Scaffold L50 3

Contig - непрерывная последовательность ДНК, собранная из множества reads
Scaffold - фрагменты генома, содержащие N-нуклеотиды, полученные cовмещением контигов. Для постройки обычно используют дополнительно метод двойного прочтения или Hi-C
L50 - количество фрагментов, в которых соержится 50% нуклеотидов сборки
N50 - длина наименьшего фрагмента, входящего в состав L50

Работа с поисковыми системами

Для этого задания мной был выбран пептидный гормон - инсулин. Сперва поиск проводился на сайте NCBI по нуклеотидной базе данных и запросу: insulin[Title].
1. Всего по такому запросу было найдено 45,020 записей.
С помощью колонки Molecule types можно узнать, что 4,129 записей относятся к genomic DNA/RNA, а 36,529 записей к mRNA. Можно заметить что записей про мРНК сильно больше.
2. Из RefSeq было получено 32,270 записей, а из GenBank 5,560 (остальные записи преимущественно из DDBJ и немного из EMBL )
3. Для поиска последовательностей человека запрос был модифицирован:
(insulin[Title]) AND "Homo sapiens"[porgn:__txid9606]
Всего было получено 5,599 записей, из них 254 из RefSeq и 3,934 из GenBank. Записей о мРНК - 4,093, а о генах - 1,472
4. Далеко не во всех записях содержится последовательность именно инсулина и это видно даже при просмотре нескольких первых записей. Поэтому запрос был несколько модифицирован:
((insulin[Title])) NOT receptor[Title]
Всего получилось 30,987 записей, так что примерно 14 тысяч записей содержит информацию об инсулиновых рецепторах.
5. Схожий поиск был проведен на сайте ENA
tax_eq(9606) AND description="insulin" AND mol_type="mrna"
По такому запросу было найдено 7185 записей.
По запросу:
tax_eq(9606) AND description="insulin" AND mol_type="genomic dna"
было найдено 157 записей