1. Знакомство со структурой банка EMBL посредством поисковой системы SRS
a) Дата последнего (113) проиндексированного релиза EMBL - 18 сентября 2012 года. Количество записей - 82772678
b) Список классов банка EMBL
Обозначение класса
|
Описание класса
|
Число проиндексированных SRS записей
|
CON
|
Constructed sequence
|
не проиндексированы в SRS
|
EST
|
Expressed Sequence Tag
|
не проиндексированы в SRS
|
GRV
|
Genome Reviews
|
не проиндексированы в SRS
|
GSS
|
Genome Survey Sequence
|
34528104
|
HTC
|
High Throughput cDNA sequencing
|
491770
|
HTG
|
High Throughput Genome sequencing
|
152599
|
MGA
|
Mass Genome Annotation
|
не проиндексированы в SRS
|
PAT
|
Patent
|
24364832
|
SET
|
Project set (EMBL WGS Masters only)
|
не проиндексированы в SRS
|
STD
|
Standard
|
13920617
|
STS
|
Sequence Tagged Site
|
1322570
|
TSA
|
Transcriptome Shotgun Assembly
|
7992186
|
WGS
|
Whole Genome Shotgun
|
не проиндексированы в SRS
|
c) Список разделов банка EMBL
Обозначение раздела
|
Описание раздела
|
Число записей в релизе
|
ENV
|
Environmental Samples (Проба окружающей среды)
|
7762556
|
FUN
|
Fungi (Грибы)
|
2402829
|
HUM
|
Human (Человек)
|
11304977
|
INV
|
Invertebrates (беспозвоночные)
|
7398340
|
MAM
|
Other Mammals (Другие млекопитащие)
|
6741732
|
MUS
|
Mus musculus (Мышь домовая)
|
5163724
|
PHG
|
Bacteriophage (Бактериофаг)
|
8503
|
PLN
|
Plants (Растения)
|
20284404
|
PRO
|
Prokaryotes (Прокариоты)
|
1639517
|
ROD
|
Rodents (Грызуны)
|
1313761
|
SYN
|
Synthetic (Синтетические)
|
4045013
|
TGN
|
Transgenic (Трансгенные)
|
285306
|
UNC
|
Unclassified (Неклассифицированные)
|
8617170
|
VRL
|
Viruses (Вирусы)
|
1358516
|
VRT
|
Other Vertebrates (Другие позвоночные)
|
4446330
|
2. Описание гена SMRNP в записи банка EMBL
FT exon 137228..137263
FT /gene="SMRNP"
FT /number=1
FT CDS join(137261..137263,137876..137943,145514..145544,
FT 145972..146031,146139..146264)
FT /codon_start=1
FT /transl_table=1
FT /gene="SMRNP"
FT /product="small nuclear ribonuclear protein D homolog"
FT /note="alternative name: G7b"
FT /db_xref="GDB:11504829"
FT /db_xref="GOA:Q9Y333"
FT /db_xref="HGNC:13940"
FT /db_xref="HSSP:1B34"
FT /db_xref="InterPro:IPR016654"
FT /db_xref="UniProtKB/Swiss-Prot:Q9Y333"
FT /protein_id="BAB63302.1"
FT /translation="MLFYSFFKSLVGKDVVVELKNDLSICGTLHSVDQYLNIKLTDISV
FT TDPEKYPHMLSVKNCFIRGSVVRYVQLPADEVDTQLLQDAARKEALQQKQ"
FT exon 137876..137943
FT /gene="SMRNP"
FT /number=2
FT exon 145514..145544
FT /gene="SMRNP"
FT /number=3
FT exon 145972..146031
FT /gene="SMRNP"
FT /number=4
FT exon 146139..146264
FT /gene="SMRNP"
FT /number=5
- направление - прямое
- кодирующих участков 5
- длина первого кодирующего участка - 3 нуклеотида, последнего - 26 нуклеотидов (к разнице прибавляем один)
- длина первого интрона - 612, последнего интрона - 107 (из разности вычитаем один)
3. Нахождение белка по фрагменту гена
Выбрала самый длинный кодирующий участок - 146139..146264 - в отдельный файл:
Запустила команду seqret -sask
"input (gapped) sequence" - имя исходного файла (BA000025.embl)
"Begin at position [start]:" - начало вырезаемого участка
"End at position [end]:" - конец вырезаемого участка
"Reverse strand" - "n" - если участок на прямой цепи, "y" - если на обратной
Задать имя выходного файла
Полученный файл
На странице
BLAST
Выбрать команду blastX, которая ищет белквую последовательность по нуклеотидной
В поле "Enter Query Sequence" ввести вырезанную последовательность
В поле "database" выбрать Swiss-Prot
Запустить поиск
Результаты поиска:
100% идентичность у белка с AC Q9Y333.1, хотя все первые четыре последовательности обладают похожим описанием. Данный белок (U6 snRNA-associated Sm-like protein LSm2) совпадает с экзоном на участке с 55 по 95 аминокислотный остатки.
4. Сылки из записи банка Swiss-Prot на записи банка EMBL
Получить запись - entret sw:spse_bacsu
Результаты:
Эти две записи разных годов - 1993 и 2002. Причем в 1993м году белок записан как фрагмент генома (325-333) а в 2002 - для полного генома Bacillus subtilis.