Нуклеотидные банки данных

Сборка генома Nematostella vectensis

Звездчатая актиния (Nematostella vectensis) В последние годы стала главным модельным объектом для изучения молекулярной биологии и биологии развития стрекающих. В 2007 году геном вида был полностью секвенирован. Для выполнения практикума был выбран именно этот вид, поскольку он представляет эволюционно важную группу животных, а его геномная сборка соответствует всем требуемым параметрам: имеются аннотированные гены, качество сборки — хромосомный уровень, и она имеет статус референсной.

Таблица 1. Характеристики сборки
Идентификатор GenBank GCA_932526225.1
Идентификатор RefSeq GCF_932526225.1
Уровень сборки генома Chromosome
Общий размер генома 269.4 Mb
Число фрагментов генома в сборке 15
Число контигов 223
Число скэффолдов 47
N50 контигов 2,9 Mb
L50 контигов 25
N50 скэффолдов 17.9 Mb
L50 скэффолдов 7

N50: Длина контига, для которого половина (50%) всех нуклеотидов сборки содержится в контигах такой и большей длины

L50: Число контигов (наименьшее), в которых содержится половина (50%) всех нуклеотидов сборки

Знакомство с поисковыми системами ENA и NCBI

Для ознакомления с работой поисковых систем был выбран белок инсулин(insulin).

NCBI

  • Сколько всего записей нуклеотидных баз данных посвящено генам и мРНК белков с таким словом в названии?
  • С помощью Advanced Search в NCBI среди нуклеотидных баз данных нашли 41102 записи, посвященых генам и мРНК инсулина. Из них 4129 записей о генах, а 37629 о мРНК. Был использован запрос insulin[Title] для нуклеотидных баз данных
  • Сколько из них — из GenBank, а сколько — из RefSeq?
  • Из них 13415 от GenBank и 33447 от RefSeq.
  • Сколько их них (отдельно для GenBank и RefSeq, мРНК и участков генома) — записи, описывающие последовательности человека?
  • Количество записей, описывающих человека 5598 (GenBank(genomic DNA/RNA) - 1453, GenBank(mRNA) - 3875, RefSeq(genomic DNA/RNA) - 19, RefSeq(mRNA) - 217)
  • По возможности выясните, все ли эти записи действительно содержат последовательности, кодирующие белки с соответствующей функцией.
  • Не все записи содержали последовательность инсулина, что было заметно при просмотре. Были замечены рецепторы и инсулиноподобные белки. (insulin[Title]) AND "Homo sapiens"[porgn:__txid9606] NOT (receptor[Title] OR "insulin-like"[Title]) Выдал 51 результат

    ENA

  • Сколько в ENA записей, описывающих мРНК инсулина человека
  • По запросу tax_eq(9606) AND description="insulin" AND mol_type="mrna" Нашлось 7185 записей
  • Сколько в ENA записей, описывающих гены белков инсулина человека
  • По запросу tax_eq(9606) AND description="insulin" AND mol_type="genomic dna" Нашлось 157 записей