Банк EMBL




Знакомство со структурой банка EMBL посредством поисковой системы SRS

Дата последнего проиндексированного в системе релиза EMBL - 08 сентября 2011; количество записей в нём - 71833235

Список классов ("Data Class") банка EMBL:

 
CON: Constructed sequence
EST: Expressed Sequence Tag
GRV: Genome Reviews
GSS: Genome Survey Sequence
HTC: High Throughput cDNA sequencing
HTG: High Throughput Genome sequencing
MGA: Mass Genome Annotation
PAT: Patent
SET: Project set (EMBL WGS Masters only)
STD: Standard
STS: Sequence Tagged Site
TSA: Transcriptome Shotgun Assembly
WGS: Whole Genome Shotgun

Число записей каждого класса, проиндексированных SRS для последнего релиза EMBL:

  gss 	32578894
  htc 	533398
  htg 	145701
  pat 	22346593
  std 	11737741
  sts 	1322285
  tsa 	3168623 

Таким образом, записи CON, EST, GRV, MGA, SET, WGS классов не проиндексированы в SRS.

Cписок разделов ("Divisions") банка EMBL:

ENV: Environmental Samples (природные образцы)
FUN: Fungi (грибы)
HUM: Human (человек)
INV: Invertebrates (беспозвоночные)
MAM: Other Mammals (другие млекопитающие)
MUS: Mus musculus (домовая мышь)
PHG: Bacteriophage(бактериофаг)
PLN: Plants (растения)
PRO: Prokaryotes (прокариоты)
ROD: Rodents (грызуны)
SYN: Synthetic (синтетические)
TGN: Transgenic (трансгенные)
UNC: Unclassified (неклассифицированные)
VRL: Viruses (вирусы)
VRT: Other Vertebrates (другие позвоночные)

Число записей в последнем релизе:

                 
ENV: 6637887
FUN: 2219095
HUM: 10687844
INV: 5906093
MAM: 5765536
MUS: 4779883
PHG: 8082
PLN: 17132180
PRO: 1467025
ROD: 1265394
SYN: 3632878
TGN: 265545
UNC: 7500493
VRL: 1177936
VRT: 3387364

Описание гена в записи банка EMBL

направление гена относительно направления, выбранного для записи - обратное
число кодирующих участков - 4
длины первого и последнего кодирующих участков - 57 и 1058
длины первого и последнего интронов между кодирующими участками - 312 и 1974

Нахождение белка по фрагменту гена

Выбран фрагмент 1217791-1218848
1. Зайти на blastх
2. Ввести последовательность
3. В database выбрать Swiss-Prot
4. Проанализировать полученные результаты
Результаты поиска: найден белок Tubulin beta chain (или Tubulin beta-5 chain)
Данным экзоном кодируется участок с 94 по 427 аа.

Ссылки из записи банка Swiss-Prot на записи банка EMBL

Записи EMBL, в которых описан ген белка KPRS_BACSU.

ID записи

Тип молекулы

Класс данных

Дата внесения в банк

Описание

Длина последовательности

X16518

genomic DNA

STD

03-DEC-1989

B.subtilis prs,tms,and ctc (partial) genes for PRPP synthetase and two undefined gene products

3211

D26185

genomic DNA

STD

05-FEB-1994

Bacillus subtilis gene, 180 kilobase region of replication origin.

180136

AL009126

genomic DNA

STD

18-JUL-2002

Bacillus subtilis subsp. subtilis str. 168 complete genome.

4215606

Найдено всего 3 записи. Все они относятся к одному классу данных и имеют один тип молекулы. Видно, что даты внесения данных в банк разнятся на 13 лет. Различны и длины последовательностей. Я думаю, что это можно объяснить временем секвенирования, т.е. со временем могли появиться новые методики секвенирования. Кроме того, можно заметить, что первая находка-это части генов белка, вторая - какой-то регион, а третья - геном. Следовательно и длины этих участкой увеличиваются.



© Alisa Garaeva