Банк EMBL

1. Знакомство со структурой банка EMBL посредством поисковой системы SRS

а. Дата последнего проиндексированного в системе релиза EMBL 08-Sep-2011, количество внем записей 71 833 235.

b. Cписок классов ("Data Class") банка EMBL

Обозначение класса / Описание класса / Число записей класса, проиндексированных SRS для последнего релиза EMBL

CON: Constructed sequence не проиндексированы в SRS
EST: Expressed Sequence Tag не проиндексированы в SRS
GRV: Genome Reviews не проиндексированы в SRS
GSS: Genome Survey Sequence 32578894
HTC: High Throughput cDNA sequencing 533398
HTG: High Throughput Genome sequencing 145701
MGA: Mass Genome Annotation не проиндексированы в SRS
PAT: Patent 22346593
SET: Project set (EMBL WGS Masters only) не проиндексированы в SRS
STD: Standard 11737741
STS: Sequence Tagged Site 1322285
TSA: Transcriptome Shotgun Assembly 3168623
WGS: Whole Genome Shotgun не проиндексированы в SRS

c.Список разделов ("Divisions") банка EMBL

Обозначение раздела / Описание раздела / Число записей в последнем релизе

ENV: Environmental Samples ( Проба окружающей среды) 6637887
FUN: Fungi (Грибы) 2219095
HUM: Human (Человек) 10687844
INV: Invertebrates (Беспозвоночные) 5906093
MAM: Other Mammals (Другие Млекопитающие) 5765536
MUS: Mus musculus (Мышь домовая) 4779883
PHG: Bacteriophage (Бактериофаг) 8082
PLN: Plants (Растения) 17132180
PRO: Prokaryotes (Прокариоты) 1467025
ROD: Rodents (Грызуны) 1265394
SYN: Synthetic (Синтетические) 3632878
TGN: Transgenic (Трансгенные) 265545
UNC: Unclassified (Неклассифицированные) 7500493
VRL: Viruses (Вирусы) 1177936
VRT: Other Vertebrates (Другие Позвоночные) 3387364

2. Описание гена HLA_92 в записи банка EMBL

  • Направление - прямое,
  • 8 кодирующи хучастков,
  • 424 - длина первого экзона, 73 - последнего,
  • Длина первого интрона - 83, последнего - 117.

    3. Нахождение белка по фрагменту гена

     Был выбран самый длинный кодирующий участок (1679321..1679744) в отдельный файл:
    • Используя kodomo-count, запустить команду seqret -sask;
    • "intup (gapped) sequence" - ввести имя входного файла (BA000025.embl);
    • "Begin at position [start]:" - начало вырезаемого участка;
    • "End at position [end]:" - конец вырезаемого участка;
    • " Reverse strand " - "n", если участок лежит на прямой цепи, "у" - если на обратной;
    • Задать имя выходного файла.

    Затем на странице http://blast.ncbi.nlm.nih.gov/:

    • выбрать пограмму blastX, которая по нуклеотидной последовательности ищет последовательность белковую;
    • в поле "Enter Query Sequence" ввести вырезанную последовательность;
    • в поле "database" выбрать банк Swiss-Prot;
    • запустить поиск.

    В результате было получено три последовательности, первая из которых обладала только 31%-идентичностью и AC которого Q17603. Данный белок совпадает с экзоном на участке с 98 по 139 аа, но не является гомологом к изучаемой последовательности, так как мой ген является псевдогеном.

    4. Сылки из записи банка Swiss-Prot на записи банка EMBL


    Нетрудно заметить, что данные записи сделаны в разные годы, а последовательности отличаются по своей длине. Кроме того, в 1996 году белок был записан для фрагмента генома (76 регион), а в 2002 для полного генома Bacillus subtilis.