Банк EMBL


1. Знакомство со структурой банка EMBL посредством поисковой системы SRS
a) Дата последнего (113) проиндексированного релиза EMBL - 18 сентября 2012 года. Количество записей - 82772678

b) Список классов банка EMBL

Обозначение класса Описание класса Число проиндексированных SRS записей
CON Constructed sequence не проиндексированы в SRS
EST Expressed Sequence Tag не проиндексированы в SRS
GRV Genome Reviews не проиндексированы в SRS
GSS Genome Survey Sequence 34528104
HTC High Throughput cDNA sequencing 491770
HTG High Throughput Genome sequencing 152599
MGA Mass Genome Annotation не проиндексированы в SRS
PAT Patent 24364832
SET Project set (EMBL WGS Masters only) не проиндексированы в SRS
STD Standard 13920617
STS Sequence Tagged Site 1322570
TSA Transcriptome Shotgun Assembly 7992186
WGS Whole Genome Shotgun не проиндексированы в SRS


c) Список разделов банка EMBL

Обозначение раздела Описание раздела Число записей в релизе
ENV Environmental Samples (Проба окружающей среды) 7762556
FUN Fungi (Грибы) 2402829
HUM Human (Человек) 11304977
INV Invertebrates (беспозвоночные) 7398340
MAM Other Mammals (Другие млекопитащие) 6741732
MUS Mus musculus (Мышь домовая) 5163724
PHG Bacteriophage (Бактериофаг) 8503
PLN Plants (Растения) 20284404
PRO Prokaryotes (Прокариоты) 1639517
ROD Rodents (Грызуны) 1313761
SYN Synthetic (Синтетические) 4045013
TGN Transgenic (Трансгенные) 285306
UNC Unclassified (Неклассифицированные) 8617170
VRL Viruses (Вирусы) 1358516
VRT Other Vertebrates (Другие позвоночные) 4446330


2. Описание гена SMRNP в записи банка EMBL

FT   exon            137228..137263
FT                   /gene="SMRNP"
FT                   /number=1
FT   CDS             join(137261..137263,137876..137943,145514..145544,
FT                   145972..146031,146139..146264)
FT                   /codon_start=1
FT                   /transl_table=1
FT                   /gene="SMRNP"
FT                   /product="small nuclear ribonuclear protein D homolog"
FT                   /note="alternative name: G7b"
FT                   /db_xref="GDB:11504829"
FT                   /db_xref="GOA:Q9Y333"
FT                   /db_xref="HGNC:13940"
FT                   /db_xref="HSSP:1B34"
FT                   /db_xref="InterPro:IPR016654"
FT                   /db_xref="UniProtKB/Swiss-Prot:Q9Y333"
FT                   /protein_id="BAB63302.1"
FT                   /translation="MLFYSFFKSLVGKDVVVELKNDLSICGTLHSVDQYLNIKLTDISV
FT                   TDPEKYPHMLSVKNCFIRGSVVRYVQLPADEVDTQLLQDAARKEALQQKQ"
FT   exon            137876..137943
FT                   /gene="SMRNP"
FT                   /number=2
FT   exon            145514..145544
FT                   /gene="SMRNP"
FT                   /number=3
FT   exon            145972..146031
FT                   /gene="SMRNP"
FT                   /number=4
FT   exon            146139..146264
FT                   /gene="SMRNP"
FT                   /number=5 


- направление - прямое
- кодирующих участков 5
- длина первого кодирующего участка - 3 нуклеотида, последнего - 26 нуклеотидов (к разнице прибавляем один)
- длина первого интрона - 612, последнего интрона - 107 (из разности вычитаем один)

3. Нахождение белка по фрагменту гена
Выбрала самый длинный кодирующий участок - 146139..146264 - в отдельный файл:
Запустила команду seqret -sask
"input (gapped) sequence" - имя исходного файла (BA000025.embl)
"Begin at position [start]:" - начало вырезаемого участка
"End at position [end]:" - конец вырезаемого участка
"Reverse strand" - "n" - если участок на прямой цепи, "y" - если на обратной
Задать имя выходного файла
Полученный файл

На странице BLAST
Выбрать команду blastX, которая ищет белквую последовательность по нуклеотидной
В поле "Enter Query Sequence" ввести вырезанную последовательность
В поле "database" выбрать Swiss-Prot
Запустить поиск

Результаты поиска:

100% идентичность у белка с AC Q9Y333.1, хотя все первые четыре последовательности обладают похожим описанием. Данный белок (U6 snRNA-associated Sm-like protein LSm2) совпадает с экзоном на участке с 55 по 95 аминокислотный остатки.

4. Сылки из записи банка Swiss-Prot на записи банка EMBL
Получить запись - entret sw:spse_bacsu
Результаты:

Эти две записи разных годов - 1993 и 2002. Причем в 1993м году белок записан как фрагмент генома (325-333) а в 2002 - для полного генома Bacillus subtilis.