1. Знакомство со структурой банка EMBL посредством поисковой системы SRS

а. Дата последнего проиндексированного в системе релиза EMBL 08-Sep-2011, количество внем записей 71 833 235.
b-c. Cписок классов и разделов банка EMBL, а также число записей каждого класса и раздела, проиндексированных SRS для последнего релиза.
Classses
Divisions
CON: Constructed sequence 
EST: Expressed Sequence Tag 
GRV: Genome Reviews 
GSS: Genome Survey Sequence = 32578894
HTC: High Throughput cDNA sequencing = 533398
HTG: High Throughput Genome sequencing = 145701
MGA: Mass Genome Annotation 
PAT: Patent = 22346593
SET: Project set (EMBL WGS Masters only) 
STD: Standard = 11737741
STS: Sequence Tagged Site = 1322285
TSA: Transcriptome Shotgun Assembly = 3168623
WGS: Whole Genome Shotgun 
ENV: Образцы из окружающей среды = 6637887
FUN: Грибы = 2219095
HUM: Человек = 10687844
INV: Беспозвоночные = 5906093
MAM: Другие млекопитающие = 5765536
MUS: Домовая мышь= 4779883
PHG: Бактериофаги = 8082
PLN: Растения = 17132180
PRO: Прокариоты = 1467025
ROD: Грызуны = 1265394
SYN: Искусственные = 3632878
TGN: Транскенные = 3632878
UNC: Неклассифицированные = 3632878
VRL: Вирусы = 1177936
VRT: Другие позвоночные = 3387364
d.
Выбрал три раздела банка EMBL (FUN, VRL и INV). Определил, сколько стандартных (класса STD) записей появилось в каждом из этих разделов за январь-март 2010 года и за те же месяцы 2011 года. Оформил результаты в виде столбчатой диаграммы.
Очевидно, что в каждом случае происходит ускорение поступления записей в раздел.

2. Описание гена HLA_E в записи банка EMBL

  • Направление - обратное,
  • 7 кодирующи хучастков,
  • 64 - длина первого экзона, 41 - последнего,
  • Длина первого интрона - 130, последнего - 104.

    3. Нахождение белка по фрагменту гена

     Был выбран самый длинный кодирующий участок (1450760..1451035) в отдельный файл:

    Затем на странице http://blast.ncbi.nlm.nih.gov/:

    В результате было получено множество белков, первый из которых обладал 100%-идентичностью и AC которого P13747. В записи EMBL как раз и был этот белок ("UniProtKB/Swiss-Prot:P13747"). Данным экзоном кодируется кодируется участок с 205 по 295 аа. Участок, кодируемый данным экзоном, представляет собой IgC_MHC_I_alpha3 регион. Белок является HLA class I histocompatibility antigen.

    4. Сылки из записи банка Swiss-Prot на записи банка EMBL