Банк EMBL

Задание 1.Знакомство со структурой банка EMBL посредством поисковой системы SRS

a.

Дата последнего проиндексированного в системе релиза №109 EMBL - 08-Sep-2011
Количество записей в релизе - 71833235

b. Cписок классов ("Data Class") банка EMBL

Обозначение класса / Описание класса / Число записей класса, проиндексированных SRS для последнего релиза EMBL

CON: Constructed sequence не проиндексированы в SRS
EST: Expressed Sequence Tag не проиндексированы в SRS
GRV: Genome Reviews не проиндексированы в SRS
GSS: Genome Survey Sequence 32578894
HTC: High Throughput cDNA sequencing 533398
HTG: High Throughput Genome sequencing 145701
MGA: Mass Genome Annotation не проиндексированы в SRS
PAT: Patent 22346593
SET: Project set (EMBL WGS Masters only) не проиндексированы в SRS
STD: Standard 11737741
STS: Sequence Tagged Site 1322285
TSA: Transcriptome Shotgun Assembly 3168623
WGS: Whole Genome Shotgun не проиндексированы в SRS

c.Список разделов ("Divisions") банка EMBL

Обозначение раздела / Описание раздела / Число записей в последнем релизе

ENV: Environmental Samples ( Проба окружающей среды) 6637887
FUN: Fungi (Грибы) 2219095
HUM: Human (Человек) 10687844
INV: Invertebrates (Беспозвоночные) 5906093
MAM: Other Mammals (Другие Млекопитающие) 5765536
MUS: Mus musculus (Мышь домовая) 4779883
PHG: Bacteriophage (Бактериофаг) 8082
PLN: Plants (Растения) 17132180
PRO: Prokaryotes (Прокариоты) 1467025
ROD: Rodents (Грызуны) 1265394
SYN: Synthetic (Синтетические) 3632878
TGN: Transgenic (Трансгенные) 265545
UNC: Unclassified (Неклассифицированные) 7500493
VRL: Viruses (Вирусы) 1177936
VRT: Other Vertebrates (Другие Позвоночные) 3387364

d.* Количество стандартных (класса STD) записей, появившихся в каждом из разделов (VRL, INV, FUN) за январь-март 2011 года и за тот же период 2010 года.



Выводы:

Как видно из диаграммы, произошло ускорение поступления записей в данные разделы. Особенно хорошо это видно на разделе Позвоночные.

Задание 2.Описание гена в записи банка EMBL


Имя гена - HLA-C
Направление гена относительно направления, выбранного для записи - прямое
Число кодирующих участков - 8
Длина первого кодирующего участка - 73
Длина последнего кодирующего участка - 5
Длина первого интрона - 130
Длина последнего интрона - 164

Задание 3.Нахождение белка по фрагменту гена


Cамый длинный кодирующий участок: 673111..673386
Полученный файл : part.fasta

Краткая "инструкция" по вырезанию фрагмента

- зайти на kodomo через putty
- зайти в свою директорию
- ввести команду: seqret embl:BA000025 -sask
- ответить на вопросы программы ( с какой позиции начать вырезать,на какой позиции закончить, направление вырезаемого участка относительно цепи, имя выходного файла)

Краткая "инструкция" по поиску белка по выбранному фрагменту

- зайти на http://blast.ncbi.nlm.nih.gov/
- выбрать blastx
- ввести последовательность фрагмента в поле "Enter Query Sequence"
- в поле "database" выбрать банк Swiss-Prot
- запустить поиск

Результаты поиска :

нашёлся белок 1C07_HUMAN (P10321) - 100% идентичности,
и еще более 100 белков с идентичностью более 80%
Участок этого белка соответствующий выбранному кодирующему участку : 208-298 а.о.

Задание 4.Ссылки из записи банка Swiss-Prot на записи банка EMBL

Ссылки на банк EMBL.

DR EMBL; M85163; AAA22705.1; -; Genomic_DNA.
DR EMBL; Z75208; CAA99554.1; -; Genomic_DNA.
DR EMBL; AL009126; CAB14797.1; -; Genomic_DNA.

Таблица. Записи EMBL, в которых описан ген белка RNPH_BACSU



Сравнение характеристик разных записей :

Ген белка RNPH_BACSU был описан в полном геноме B.subtilis (2002 г), в гене RNase PH(это и есть ген данного белка) B.subtilis (1992 г) и в секвенированном куске генома B.subtilis (1997 г).


   

© Алиса Муравьева. Все права защищены.