"Банк EMBL"

№1 Знакомство со структурой банка EMBL посредством поисковой системы SRS

"Пункт a"

The current release (113) has 82772678 entries and was indexed 18-Sep-2012. - значит, что текущий релиз был проиндексирован последний раз 18 сентября этого года.

"Пункт b"

CON Constructed sequence
EST Expressed Sequence Tag
GRV Genome Reviews
GSS Genome Survey Sequence
HTC High Throughput cDNA sequencing
HTG High Throughput Genome sequencing
MGA Mass Genome Annotation
PAT Patent
SET Project set (EMBL WGS Masters only)
STD Standard
STS Sequence Tagged Site
TSA Transcriptome Shotgun Assembly
WGS Whole Genome Shotgun

Число записей каждого класса, проиндексированных SRS для последнего релиза EMBL. В SRS не проиндексированы CON, EST, GRV, MGA, SET, WGS

GSS 34528104
HTC 491770
HTG 152599
PAT 24364832
STD 13920617
STS 1322570
TSA 7992186

"Пункт c"

Список разделов ("Divisions") банка EMBL

ENV Образцы из окружающей среды = 7762556
FUN Грибы = 2402829
HUM Человек = 11304977
INV Беспозвоночные = 7398340
MAM Остальные млекопитающие = 6741732
MUS Домовая мышь = 5163724
PHG Бактериофаги = 8503
PLN Растения = 20284404
PRO Прокариоты = 1639517
ROD Грызуны = 1313761
SYN Синтетические (искусственные) = 4045013
TGN Трансгенные = 285306
UNC Неклассифицированные = 8617170
VRL Вирусы = 1358516
VRT Другие позвоночные = 4446330

"Пункт d"

Были выбраны группы MAM, VRT, PRO. Результаты приведены на диаграмме, на которой видно, что число стандартных записей ощутимо выросло у позвоночных, почти не изменилось у MAM, почти в два раза выросло у прокариот.

№2 Описание гена в записи банка EMBL

  • Направление - обратное,
  • 6 кодирующи участков,
  • 25 - длина первого экзона, 85 - последнего,
  • Длина первого интрона - 166, последнего - 309.

    №3 Нахождение белка по фрагменту гена

    Был выбран самый длинный кодирующий участок 328665-328689 - 163 нуклеотида.
  • Используем команду seqret -sask
  • "intup (gapped) sequence" - ввести имя входного файла - embl.embl
  • "Begin at position [start]:" - начало вырезаемого участка (197)
  • "End at position [end]:" - конец вырезаемого участка (359)
  • "Reverse strand " - "n", если участок лежит на прямой цепи, "у" - если на обратной
  • Задать имя выходного файла

    Переходим в http://blast.ncbi.nlm.nih.gov/:

  • blastX по нуклеотидной последовательности ищет последовательность белковую
  • Загружаем полученный нами файл
  • Выбираем банк Swiss-Prot в поле database
  • Запустить

    В итоге получилось 2 стопроцентных результата. Один белок Allograft inflammatory factor 1, с двумя AC - P55008.1 и Q5TM25.1. Это соответствует тому, что было в EMBEL "UniProtKB/Swiss-Prot:P55008". Экзон кодирует аминокислоты 67-119 в данном белке.

    №4 Ссылки из записи банка Swiss-Prot на записи банка EMBL

    Все ссылки на банк EMBL, описывающей мой (O31465) белок, в записи Swiss-Prot.

    DR EMBL; AB006424; BAA33141.1; -; Genomic_DNA.

    DR EMBL; AL009126; CAB12037.1; -; Genomic_DNA.

    Записи EMBL, в которых описан ген моего белка

    ID записи Тип молекулы Класс данных Дата внесения в банк Описание Длина последовательности
    EMBL:AB006424 AB006424 genomic DNA STD 23-SEP-1998 Bacillus subtilis genomic DNA, 70 kb region between 17 and 23 degree. 69650
    EMBL:AL009126 AL009126 genomic DNA STD 18-JUL-2002 Bacillus subtilis subsp. subtilis str. 168 complete genome. 4215606