1. Знакомство со структурой банка EMBL посредством поисковой системы SRS
а. Дата последнего проиндексированного в системе релиза EMBL 08-Sep-2011, количество внем записей 71 833 235.b. Cписок классов ("Data Class") банка EMBL
Обозначение класса / Описание класса / Число записей класса, проиндексированных SRS для последнего релиза EMBL
CON: Constructed sequence не проиндексированы в SRSEST: Expressed Sequence Tag не проиндексированы в SRS
GRV: Genome Reviews не проиндексированы в SRS
GSS: Genome Survey Sequence 32578894
HTC: High Throughput cDNA sequencing 533398
HTG: High Throughput Genome sequencing 145701
MGA: Mass Genome Annotation не проиндексированы в SRS
PAT: Patent 22346593
SET: Project set (EMBL WGS Masters only) не проиндексированы в SRS
STD: Standard 11737741
STS: Sequence Tagged Site 1322285
TSA: Transcriptome Shotgun Assembly 3168623
WGS: Whole Genome Shotgun не проиндексированы в SRS
c.Список разделов ("Divisions") банка EMBL
Обозначение раздела / Описание раздела / Число записей в последнем релизе
ENV: Environmental Samples ( Проба окружающей среды) 6637887FUN: Fungi (Грибы) 2219095
HUM: Human (Человек) 10687844
INV: Invertebrates (Беспозвоночные) 5906093
MAM: Other Mammals (Другие Млекопитающие) 5765536
MUS: Mus musculus (Мышь домовая) 4779883
PHG: Bacteriophage (Бактериофаг) 8082
PLN: Plants (Растения) 17132180
PRO: Prokaryotes (Прокариоты) 1467025
ROD: Rodents (Грызуны) 1265394
SYN: Synthetic (Синтетические) 3632878
TGN: Transgenic (Трансгенные) 265545
UNC: Unclassified (Неклассифицированные) 7500493
VRL: Viruses (Вирусы) 1177936
VRT: Other Vertebrates (Другие Позвоночные) 3387364
2. Описание гена HLA_92 в записи банка EMBL
3. Нахождение белка по фрагменту гена
Был выбран самый длинный кодирующий участок (1679321..1679744) в отдельный файл:- Используя kodomo-count, запустить команду seqret -sask;
- "intup (gapped) sequence" - ввести имя входного файла (BA000025.embl);
- "Begin at position [start]:" - начало вырезаемого участка;
- "End at position [end]:" - конец вырезаемого участка;
- " Reverse strand " - "n", если участок лежит на прямой цепи, "у" - если на обратной;
- Задать имя выходного файла.
Затем на странице http://blast.ncbi.nlm.nih.gov/:
- выбрать пограмму blastX, которая по нуклеотидной последовательности ищет последовательность белковую;
- в поле "Enter Query Sequence" ввести вырезанную последовательность;
- в поле "database" выбрать банк Swiss-Prot;
- запустить поиск.
В результате было получено три последовательности, первая из которых обладала только 31%-идентичностью и AC которого Q17603. Данный белок совпадает с экзоном на участке с 98 по 139 аа, но не является гомологом к изучаемой последовательности, так как мой ген является псевдогеном.
4. Сылки из записи банка Swiss-Prot на записи банка EMBL
Нетрудно заметить, что данные записи сделаны в разные годы, а последовательности отличаются по своей длине. Кроме того, в 1996 году белок был записан для фрагмента генома (76 регион), а в 2002 для полного генома Bacillus subtilis.