Навигация по сайту:
|
Нуклеотидные банки данных
Задание 1.
Для первого задания был выбран организм Felix catus или Кошка домашняя (потому что котики классные).
Типичный представитель.
Для выбранного организма в NCBI Genome есть две сборки. Для описания возьмем GCA_000181335.4.
Общая длина сборки |
2,521,863,845 |
Число контигов |
4,909 |
L50 |
19 |
N50 |
41,915,695 |
Число скэффолдов |
4,525 |
L50 |
11 |
N50 |
83,967,707 |
Число аннотированных белков |
54726 |
Страница Bioproject |
PRJNA16726 |
Последовательность одного из контигов в RefSeq |
NW_019366903.1 |
Задание 2.
# |
Ключ |
Сущность |
Пример |
Ссылка |
1 |
operon |
Регион, содержащий полицистронный транскрипт, включающий в себя несколько генов, имеющих общую
регуляцию и вовлеченных в один и тот же процесс. |
operon <1..>3641
/operon="fructose" |
Ссылка |
2 |
tmRNA |
Последовательность транспортно-матричной РНК |
tmRNA 15712..16096
/gene="ssrA"
/locus_tag="D9R19_03585"
/product="transfer-messenger RNA"
/inference="COORDINATES: nucleotide
motif:Rfam:12.0:RF00023"
/inference="COORDINATES: profile:INFERNAL:1.1.1"
/note="Derived by automated computational analysis using
gene prediction method: cmsearch."
/db_xref="RFAM:RF00023" |
Ссылка |
3 |
mobile_element |
Участок, содержащий мобильный элемент |
mobile_element 308060..309330
/mobile_element_type="insertion sequence:ISAcryD1" |
Ссылка |
4 |
regulatory |
Любая последовательность, регулирующая транскрипцию, трансляцию, репликацию, etc. |
regulatory 5162..5167
/regulatory_class="polyA_signal_sequence"
/gene="PDE1C"
/gene_synonym="cam-PDE 1C; DFNA74; hCam-3; Hcam3" |
Ссылка |
5 |
polyA_site |
Сайт полиаденилирования мРНК |
polyA_site 5184
/gene="PDE1C"
/gene_synonym="cam-PDE 1C; DFNA74; hCam-3; Hcam3" |
Ссылка |
6 |
centromere |
Регион, экспериментально охарактеризованный как теломерный |
centromere 26436233..30038348
/note="Linear centromere model derived predominantly from
reads generated in PMID: 17803354. This region does not
represent an actual centromere sequence, as long-range
ordering of repeats and unmapped WGS contigs is not
provided by the model. For details of model production,
see http://arxiv.org/abs/1307.0035." |
Ссылка |
7 |
mat_peptide |
Последовательность зрелого пептида прошедшего все посттрансляционные модификации. Не включает в себя стоп-кодон. |
mat_peptide 116..2723
/product="tyrosine kinase receptor" |
Ссылка |
Задание 3.
Название проекта |
International Cancer Genome Consortium 25K Initiative |
Цель |
Получение исчерпывающих данных о геноме 25 тысяч первичных опухолей. |
Год начала |
2007 |
Ссылка на страницу |
Ссылка |
Организация |
ICGC |
Страна |
международный проект |
Планируемое число геномов |
25000 |
Год завершения |
— |
Число геномов на 2017 год |
20487* |
Последняя публикация |
Ссылка |
*Имеется в виду поле "Donor with molecular data in DCC" c сайта с данными.
Задание 4.
По запросу "tax_tree(1521260) AND mol_type="genomic DNA" AND topology="CIRCULAR" AND organelle="mitochondrion" в ENA было найдено
две записи: одна в Update, другая в Release, причем это одна и та же последовательность. Об организме
Phlegmariurus squarrosus можно узнать по ссылке на странице Uniprot.
С помощью python скрипта и пары манипуляций в MS Excel была построена таблица
генов белков, закодированных в митохондриальном геноме. Что такое "полное название" гена в условии задания понять не удалось и было решено взять для этой колонки
ключ product. "(-)" в координатах обозначает комплементарную цепь.
|