Учебный сайт Сергея Пушкарева

Навигация по сайту:

Нуклеотидные банки данных

Задание 1.

Для первого задания был выбран организм Felix catus или Кошка домашняя (потому что котики классные).

Ну вдруг вы не знаете, как выглядит котик
Типичный представитель.

Для выбранного организма в NCBI Genome есть две сборки. Для описания возьмем GCA_000181335.4.

Общая длина сборки 2,521,863,845
Число контигов 4,909
L50 19
N50 41,915,695
Число скэффолдов 4,525
L50 11
N50 83,967,707
Число аннотированных белков 54726
Страница Bioproject PRJNA16726
Последовательность одного из контигов в RefSeq NW_019366903.1

Задание 2.

# Ключ Сущность Пример Ссылка
1 operon Регион, содержащий полицистронный транскрипт, включающий в себя несколько генов, имеющих общую регуляцию и вовлеченных в один и тот же процесс. operon <1..>3641
/operon="fructose"
Ссылка
2 tmRNA Последовательность транспортно-матричной РНК tmRNA 15712..16096
/gene="ssrA"
/locus_tag="D9R19_03585"
/product="transfer-messenger RNA"
/inference="COORDINATES: nucleotide
motif:Rfam:12.0:RF00023"
/inference="COORDINATES: profile:INFERNAL:1.1.1"
/note="Derived by automated computational analysis using
gene prediction method: cmsearch."
/db_xref="RFAM:RF00023"
Ссылка
3 mobile_element Участок, содержащий мобильный элемент mobile_element 308060..309330
/mobile_element_type="insertion sequence:ISAcryD1"
Ссылка
4 regulatory Любая последовательность, регулирующая транскрипцию, трансляцию, репликацию, etc. regulatory 5162..5167
/regulatory_class="polyA_signal_sequence"
/gene="PDE1C"
/gene_synonym="cam-PDE 1C; DFNA74; hCam-3; Hcam3"
Ссылка
5 polyA_site Сайт полиаденилирования мРНК polyA_site 5184
/gene="PDE1C"
/gene_synonym="cam-PDE 1C; DFNA74; hCam-3; Hcam3"
Ссылка
6 centromere Регион, экспериментально охарактеризованный как теломерный centromere 26436233..30038348
/note="Linear centromere model derived predominantly from
reads generated in PMID: 17803354. This region does not
represent an actual centromere sequence, as long-range
ordering of repeats and unmapped WGS contigs is not
provided by the model. For details of model production,
see http://arxiv.org/abs/1307.0035."
Ссылка
7 mat_peptide Последовательность зрелого пептида прошедшего все посттрансляционные модификации. Не включает в себя стоп-кодон. mat_peptide 116..2723
/product="tyrosine kinase receptor"
Ссылка

Задание 3.

Название проекта International Cancer Genome Consortium 25K Initiative
Цель Получение исчерпывающих данных о геноме 25 тысяч первичных опухолей.
Год начала 2007
Ссылка на страницу Ссылка
Организация ICGC
Страна международный проект
Планируемое число геномов 25000
Год завершения
Число геномов на 2017 год 20487*
Последняя публикация Ссылка

*Имеется в виду поле "Donor with molecular data in DCC" c сайта с данными.

Задание 4.

По запросу "tax_tree(1521260) AND mol_type="genomic DNA" AND topology="CIRCULAR" AND organelle="mitochondrion" в ENA было найдено две записи: одна в Update, другая в Release, причем это одна и та же последовательность. Об организме Phlegmariurus squarrosus можно узнать по ссылке на странице Uniprot.

С помощью python скрипта и пары манипуляций в MS Excel была построена таблица генов белков, закодированных в митохондриальном геноме. Что такое "полное название" гена в условии задания понять не удалось и было решено взять для этой колонки ключ product. "(-)" в координатах обозначает комплементарную цепь.

© Пушкарев Сергей, 2018