Практикум 7

В этом практикуме были изучены нуклеотибные банки данных.

Задание 1

Выбранный организм: Морская анемона-стерлядь

Латинское название: Nematostella vectensis

Английское название(общепринятое): starlet sea anemone

Страница откуда можно скачать геном: NCBI

N. vectensis

Задание 2

Таблица 1. Информация о выбранной сборке (1 Мb = 1 000 000 пар оснований)
Параметр Значение параметра
Идентификатор GenBank GCA_932526225.1
Идентификатор RefSeq GCF_932526225.1
Уровень сборки генома Chromosome
Общий размер генома (п.н.) 269418438
Число фрагментов генома в сборке Скэффолдов — 47
Контиги — 223
N50 скэффолдов 17.9 Mb
L50 скэффолдов 7
N50 контигов 2.9 Mb
L50 контигов 25

N50— это длина самого короткого скэффолда (контига) в группе самых длинных скэффолдов (контигов), которые в сумме составляют 50% от общего размера генома.
L50 — это минимальное количество скэффолдов (контигов), сумма длин которых покрывает 50% генома.

Задание 4

Выбранный белок: Progesterone receptor

Запрос на NCBI: NCBI

1. Всего записей нуклеотидных баз данных посвящено генам и мРНК белков со словом "Progesterone receptor" в названии: 4765.
2. Из них 1007 из GenBank и 3758 из RefSeq.
3. Для человеко найдено (с помощью добавления параметра по организмам) 27 участков генома в GenBank и 2 в RefSeq (всего 29) и 26 мРНК в GenBank и 11 в RefSeq (всего 37). GenBank — это архив, куда исследователи вносят свои данные, здесь могут быть дубликаты, черновые последовательности, версии с ошибками. RefSeq — это курируемая база данных, где для каждого гена стараются представить эталонную, проверенную последовательность. Поэтому легко можно объяснить разницу между участками генома, а 50 мРНК в RefSeq, скорее всего, отражают различные изоморфы белка полученные в результате альтернативного сплайсинга одного гена.
4. Изменив запрос на "("pgr"[Gene Name] OR "progesterone receptor"[Keyword] OR "progesterone receptor"[Protein Name]) AND (progesterone receptor[Title])" я попыталась проверить все ли записи содержат последовательности, кодирующие белки и получила 2124. Из этого результата можно предположить, что либо я не учла все возможные вариации использовать поиск именно последовательности для Progesterone receptor, либо большинство совпадений из первого запроса содержали лишь упоминание, а не последовательность.

Используя Advanced Search на сайте ENA было найдено 31 записи, которые описывают мРНК прогестерона человека (запрос: "tax_tree(9606) AND description="progesterone receptor" AND mol_type="mrna"") и 25 записей, которые описывают гены прогестерона человека (запрос: "tax_tree(9606) AND description="progesterone receptor" AND mol_type="genomic dna""). Хорошо видно, что количество записей для ДНК почти совпадает в ENA и NCBI, а различия между мРНК можно объяснить разными критериями аннотации, сроками обновления баз.