Банк EMBL


1. Сравнение разных записей в EMBL

На kodomo-count.cmm.msu.ru с помощью команды entret sw:P0A6F3 -auto , где P0A6F3 - AC исследуемого белка GLPK_ECOLI, был получен файл с записью SwissProt. В нем среди прочего содержится информация о соответствующих записях EMBL. Далее был произведен поиск по бд EMBL, запрос:

Query "(((((([embl-AccNumber:M18393*] | [embl-AccNumber:M55990*]) | [embl-AccNumber:L19201*]) | [embl-AccNumber:U00096*]) | [embl-AccNumber:X15054*]) | [embl-AccNumber:U41468*]) | [embl-AccNumber:AP009048*]) "

EMBL

ID

Molecule

Class

Division

SeqLength

DateCreated

Description

EMBL:U00096

U00096

genomic DNA

STD

PRO

4639675

23-FEB-2006

Escherichia coli K12 MG1655, complete genome.

EMBL:L19201

L19201

genomic DNA

STD

PRO

96484

31-AUG-1993

E. coli chromosomal region from 87.2 to 89.2 minutes.

EMBL:M18393

M18393

genomic DNA

STD

PRO

2028

16-JUL-1988

E.coli glp-kappa gene encoding glycerol kinase, complete cds.

EMBL:M55990

M55990

genomic DNA

STD

PRO

1504

21-JUL-1991

E.coli glycerol diffusion facilitator (glpF) and glycerol kinase (glpK) genes, complete cds.

EMBL:U41468

U41468

genomic DNA

STD

PRO

1506

24-DEC-1995

Escherichia coli glycerol kinase (glpK22) gene, partial cds.

EMBL:X15054

X15054

genomic DNA

STD

PRO

1170

06-JUL-1989

E. coli glpF gene for glycerol facilitator protein and partial glpK gene for glycerol kinase protein

EMBL:AP009048

AP009048

circular genomic DNA

STD

PRO

4646332

22-JAN-2006

Escherichia coli W3110 DNA, complete genome

2. Сравнение описаний гена Escherichia coli в двух разных записях EMBL

Последовательности, кодирующие белок GLPK_ECOLI в двух записях банка EMBL

 

I

II

ID записи

M18393

AP009048

Начало гена в записи

37

3519459

Конец гена в записи

1545

3520967

Направление гена

прямое

прямое

Примечания

 

 

С помощью команды UNIX seqret и имеющихся сведений о начале, конце и направлении кодирующих последовательностей из полученных записей EMBL извлечены нуклеотидные последовательности, кодирующие белок GLPK_ECOLI(см. таблицу 2), в виде отдельных файлов GLPK_gene1.fasta и GLPK_gene3.fasta. С помощью программы neddle, сравнил данные последовательности, построив их глобальное выравнивание. (Использовалась матрица EDNAFULL, со штрафом за гэп - 10.0 и штрафом за продолжение гэпа - 0.5). Последовательности оказались сходны на 98.4%.

Gene1-Gene3.needle

Последовательности оказались сходными не на 100%, так как в начале M18393 находится фрагмент – «aatatgactacgggacaattaaac» отсутствующий  в последовательности AP009048

В остальном они абсолютно идентичны.

3. Знакомство с записью гена из эукариотического генома

Изучил документ EMBL с идентификационным номером BA000025. Он содержит ген CSNK2B, находящийся в 6p21.3 хромосоме человека (Homo sapiens) и кодирующий бета субединица казеин киназы 2. Схематичное изображение структуры транслируемых участков гена CSNK2B (изображены только первый и последний транслируемые участки).

Ген находится на комплементарной цепи

<-[273962..274192]--...--[277125..277196]----

Всего в состав гена входит 6 экзонов.

Самый длинный экзон - второй(190)
Самый короткий экзон - шестой(72)
Самый длинный интрон - пятый(964)
Самый короткий интрон - второй(146)

Расчеты можно посмотреть в файле Count.xls

 

 


На главную страницу третьего семестра

На главную


© Кузеванов Алексей,2005