Звездчатая актиния (Nematostella vectensis) В последние годы стала главным модельным объектом для изучения молекулярной биологии и биологии развития стрекающих. В 2007 году геном вида был полностью секвенирован.
Для выполнения практикума был выбран именно этот вид, поскольку он представляет эволюционно важную группу животных, а его геномная сборка соответствует всем требуемым параметрам: имеются аннотированные гены, качество сборки — хромосомный уровень, и она имеет статус референсной.
Таблица 1. Характеристики сборки
Идентификатор GenBank
GCA_932526225.1
Идентификатор RefSeq
GCF_932526225.1
Уровень сборки генома
Chromosome
Общий размер генома
269.4 Mb
Число фрагментов генома в сборке
15
Число контигов
223
Число скэффолдов
47
N50 контигов
2,9 Mb
L50 контигов
25
N50 скэффолдов
17.9 Mb
L50 скэффолдов
7
N50: Длина контига, для которого половина (50%)
всех нуклеотидов сборки содержится в контигах такой
и большей длины
L50: Число контигов (наименьшее), в которых
содержится половина (50%) всех нуклеотидов сборки
Знакомство с поисковыми системами ENA и NCBI
Для ознакомления с работой поисковых систем был выбран
белок инсулин(insulin).
NCBI
Сколько всего записей нуклеотидных баз данных посвящено генам и мРНК белков с таким словом в названии?
С помощью Advanced Search в NCBI среди нуклеотидных баз данных нашли 41102 записи, посвященых генам и мРНК инсулина. Из них 4129 записей о генах, а 37629 о мРНК.
Был использован запрос insulin[Title] для нуклеотидных баз данных
Сколько из них — из GenBank, а сколько — из RefSeq?
Из них 13415 от GenBank и 33447 от RefSeq.
Сколько их них (отдельно для GenBank и RefSeq, мРНК и участков генома) — записи, описывающие последовательности человека?
Количество записей, описывающих человека 5598 (GenBank(genomic DNA/RNA) - 1453, GenBank(mRNA) - 3875, RefSeq(genomic DNA/RNA) - 19, RefSeq(mRNA) - 217)
По возможности выясните, все ли эти записи действительно содержат последовательности, кодирующие белки с соответствующей функцией.
Не все записи содержали последовательность инсулина, что было заметно при просмотре. Были замечены рецепторы и инсулиноподобные белки.
(insulin[Title]) AND "Homo sapiens"[porgn:__txid9606] NOT (receptor[Title] OR "insulin-like"[Title])
Выдал 51 результат
ENA
Сколько в ENA записей, описывающих мРНК инсулина человека
По запросу
tax_eq(9606) AND description="insulin" AND mol_type="mrna"
Нашлось 7185 записей
Сколько в ENA записей, описывающих гены белков инсулина человека
По запросу
tax_eq(9606) AND description="insulin" AND mol_type="genomic dna"
Нашлось 157 записей