Банк EMBL.
Задание 1.Знакомство со структурой банка EMBL
посредством поисковой системы SRS
А) В текущем релизе (113) 82772678, и этот релиз был проиндексирован 18 сентября 2012 года.
B) Cписок классов ("Data Class") банка EMBL.
CON: Constructed sequence
EST: Expressed Sequence Tag
GRV: Genome Reviews
GSS: Genome Survey Sequence
HTC: High Throughput cDNA sequencing
HTG: High Throughput Genome sequencing
MGA: Mass Genome Annotation
PAT: Patent
SET: Project set (EMBL WGS Masters only)
STD: Standard
STS: Sequence Tagged Site
TSA: Transcriptome Shotgun Assembly
WGS: Whole Genome Shotgun
Число записей каждого класса, проиндексированных SRS для последнего релиза EMBL:
gss 34528104
htc 491770
htg 152599
pat 24364832
std 13920617
sts 1322570
tsa 7992186
Классы записи, которых не проиндексированы в SRS:
CON,
EST,
GRV,
MGA,
PAT,
SET.
C)Список разделов ("Divisions") банка EMBL.
ENV: Environmental Samples (пробы окружающей среды) в релизе 7762556 записей.
FUN: Fungi (грибы) в релизе 2402829 записей.
HUM: Human (человек) в релизе 11304977 записей.
INV: Invertebrates (беспозвоночные) в релизе 7398340 записей.
MAM: Other Mammals (другие млекопитающие) в релизе 6741732 записей.
MUS: Mus musculus (домовая мышь) в релизе 5163724 записей.
PHG: Bacteriophage (бактериофаг) в релизе 8503 записей.
PLN: Plants (растения) в релизе 20284404 записей.
PRO: Prokaryotes (прокариоты) в релизе 1639517 записей.
ROD: Rodents (грызуны) в релизе 1313761 записей.
SYN: Synthetic (синтетические) в релизе 4045013 записей.
TGN: Transgenic (трансгенные) в релизе 285306 записей.
UNC: Unclassified (неклассифицируемые) в релизе 8617170 записей.
VRL: Viruses (вирусы) в релизе 1358516 записей.
VRT: Other Vertebrates (другие позвоночные) в релизе 4446330 записей.
Задание 2.Описание гена NG36 в записи банка EMBL.
Ген NG36 расположен в прямом направлении относительно направления,
выбранного для записи,
в этом гене 4 кодирующих участков,
длина первого 49 кодирующего участка и
длина последнего 33 кодирующего участка,
длина первого 98 интрона
и длина последнего 2063 интрона.
Задание 3.Нахождение белка по фрагменту гена
Самый длинный кодирующий участок в гене NG36- это участок 47313..47566.
Я его вырезала в отдельный файл с помощью программы seqret с опцией -sask.
Я использовала blastx поскольку в нем белок ищется по нуклеотидной последовательности.
На странице blastx я ввела в окошко Enter Query Sequence
нуклеотидную последовательность, полученную выше, выбрала в
качестве банка данных swissprot и нажала кнопку blast.
Было найдено два белка Q96KQ7.3 и Q9Z148.2. Q96KQ7.3 выравнился на 100%, его кодирует ген NG36.
Экзону соответствует участок белка 129-197
Score = 80.1 bits (196), Expect = 3e-17, Method: Compositional matrix adjust.
Identities = 66/66 (100%), Positives = 66/66 (100%), Gaps = 0/66 (0%)
Frame = +3
Query 57 RAKMSMTGAGKSPPSVQSLAMRLLSMpgaqgaaaagsepppattspegQPKVHRARKTMS 236
RAKMSMTGAGKSPPSVQSLAMRLLSMPGAQGAAAAGSEPPPATTSPEGQPKVHRARKTMS
Sbjct 129 RAKMSMTGAGKSPPSVQSLAMRLLSMPGAQGAAAAGSEPPPATTSPEGQPKVHRARKTMS 188
Query 237 KPGNGQ 254
KPGNGQ
Sbjct 189 KPGNGQ 194
Задание 4.Ссылки из записи банка Swiss-Prot на записи банка EMBL
С помощью команды entret sw:P42412 было получин файл. В нем три ссылки на EMBL.
DR EMBL; AB005554; BAA21609.1; -; Genomic_DNA.
DR EMBL; AL009126; CAB16012.1; -; Genomic_DNA.
DR EMBL; D14399; BAA03290.1; -; Genomic_DNA.
C помощью SRS я получила информацию,
необходимую для заполнения следующей таблицы.
файл с результатом поиска в SRS.
ID записи |
Тип молекулы |
Класс данных |
Дата внесения в банк |
Описание |
Длина последовательности |
AB005554 |
genomic DNA |
STD |
25-JUL-1997 |
Bacillus subtilis genomic DNA, 36 kb region between gnt and iol operons. |
36448 |
AL009126 |
genomic DNA |
STD |
18-JUL-2002 |
Bacillus subtilis subsp. subtilis str. 168 complete genome.
|
4215606 |
D14399 |
genomic DNA |
STD |
15-MAR-1995 |
Bacillus subtilis 15 kb chromosome segment contains the iol operon |
14974 |
© Julia Chudakova