Практикум 7
В этом практикуме были изучены нуклеотибные банки данных.
Задание 1
Выбранный организм: Морская анемона-стерлядь
Латинское название: Nematostella vectensis
Английское название(общепринятое): starlet sea anemone
Страница откуда можно скачать геном: NCBI
Задание 2
| Параметр | Значение параметра |
|---|---|
| Идентификатор GenBank | GCA_932526225.1 |
| Идентификатор RefSeq | GCF_932526225.1 |
| Уровень сборки генома | Chromosome |
| Общий размер генома (п.н.) | 269418438 |
| Число фрагментов генома в сборке | Скэффолдов — 47 Контиги — 223 |
| N50 скэффолдов | 17.9 Mb |
| L50 скэффолдов | 7 |
| N50 контигов | 2.9 Mb |
| L50 контигов | 25 |
N50— это длина самого короткого скэффолда (контига) в группе самых длинных скэффолдов (контигов), которые в сумме составляют 50% от общего размера генома.
L50 — это минимальное количество скэффолдов (контигов), сумма длин которых покрывает 50% генома.
Задание 4
Выбранный белок: Progesterone receptor
Запрос на NCBI: NCBI
1. Всего записей нуклеотидных баз данных посвящено генам и мРНК белков со
словом "Progesterone receptor" в названии: 4765.
2. Из них 1007 из GenBank и 3758 из RefSeq.
3. Для человеко найдено (с помощью добавления параметра по организмам) 27 участков генома в GenBank и 2 в RefSeq
(всего 29) и 26 мРНК в GenBank и 11 в RefSeq (всего 37). GenBank — это архив, куда исследователи вносят свои данные, здесь могут быть дубликаты, черновые последовательности, версии с ошибками. RefSeq — это курируемая база данных, где для каждого гена стараются представить эталонную, проверенную последовательность. Поэтому легко можно объяснить разницу между участками генома, а 50 мРНК в RefSeq, скорее всего, отражают различные изоморфы белка полученные в результате альтернативного сплайсинга одного гена.
4. Изменив запрос на "("pgr"[Gene Name] OR "progesterone receptor"[Keyword] OR "progesterone receptor"[Protein Name]) AND (progesterone receptor[Title])" я попыталась проверить все ли записи содержат последовательности, кодирующие белки и получила 2124. Из этого результата можно предположить, что либо я не учла все возможные вариации использовать поиск именно последовательности для Progesterone receptor, либо большинство совпадений из первого запроса содержали лишь упоминание, а не последовательность.
Используя Advanced Search на сайте ENA было найдено 31 записи, которые описывают мРНК прогестерона человека (запрос: "tax_tree(9606) AND description="progesterone receptor" AND mol_type="mrna"") и 25 записей, которые описывают гены прогестерона человека (запрос: "tax_tree(9606) AND description="progesterone receptor" AND mol_type="genomic dna""). Хорошо видно, что количество записей для ДНК почти совпадает в ENA и NCBI, а различия между мРНК можно объяснить разными критериями аннотации, сроками обновления баз.