Банк EMBL

1. Знакомство со структурой банка EMBL посредством поисковой системы SRS

При выполнении использую SRS на сайте EBI: srs.ebi.ac.uk

Последний проиндексированный в системе релиз EMBL - 113-ый, 18.09.12, содержит 82772678 записей.

Список классов (Data Class) банка EMBL:
CON: Constructed sequence - записи не проиндексированы EST: Expressed Sequence Tag - записи не проиндексированы GRV: Genome Reviews - записи не проиндексированы GSS: Genome Survey Sequence - 34528104 записей HTC: High Throughput cDNA sequencing - 491770 записей HTG: High Throughput Genome sequencing - 152599 записей MGA: Mass Genome Annotation - записи не проиндексированы PAT: Patent - 24364832 записей SET: Project set (EMBL WGS Masters only) - записи не проиндексированы STD: Standard - 13920617 записей STS: Sequence Tagged Site - 1322570 записей TSA: Transcriptome Shotgun Assembly - 7992186 записей WGS: Whole Genome Shotgun - записи не проиндексированы

Список разделов (Divisions) банка EMBL:
ENV: Environmental Samples, образцы окружающей среды - 7762556 записей FUN: Fungi, грибы - 2402829 записей HUM: Human, человек - 11304977 записей INV: Invertebrates, беспозвоночные - 7398340 записей MAM: Other Mammals, другие млекопитающие - 6741732 записей MUS: Mus musculus, домо́вая мышь - 5163724 записей PHG: Bacteriophage, бактериофаги - 8503 записей PLN: Plants, растения - 20284404 записей PRO: Prokaryotes, прокариоты - 1639517 записей ROD: Rodents, грызуны - 1313761 записей SYN: Synthetic, синтетические - 4045013 записей TGN: Transgenic, трансгенные - 285306 записей UNC: Unclassified, неклассифицированные записи - 8617170 записей VRL: Viruses, вирусы - 1358516 записей VRT: Other Vertebrates, другие позвоночные - 4446330 записей

Изучаю поступление стандартных (класса STD) записей в разделы HUM, MUS, VLS за период 14.06 - 18.09 2012 года и за период 03.06 - 08.09 2011 года.

Диаграмма 1. Изменение общего числа записей

Диаграмма 2. Поступление данных за периоды

Диаграммы получены с помощью std.xlsx

Поступление данных в разделы класса STD замедлилось, особенно в случае Mus musculus (приблизительно в 5,5 раз). По количеству записей, поступающих в раздел, и по общему числу записей вирусы сильно опtрежают человека и домо́вую мышь, хотя в разделе HUM записей на порядок больше, чем в разделе VRL.

2. Описание гена в записи банка EMBL

Код доступа BA000025, ген HSR1.

Направление гена относительно направления, выбранного для записи - прямое.

Число кодирующих участков - 8, а число экзонов - 12.

Длина первого кодирующего участка - 42, последнего - 242.

Длина первого интрона между кодирующими участками - 17, последнего - 382.

3. Нахождение белка по фрагменту гена

Cамый длинный экзон - последний, вырезан в файл HSR1.seqret (программой seqret с опцией -sask).

На странице http://blast.ncbi.nlm.nih.gov/ перехожу по ссылке blastx, ввожу участок нуклеотидной последовательности в формате fasta, выбираю БД - swissprot и организм - Homo Sapiens (необязательно).

Поиск дал 16 результатов, первый из которых - Guanine nucleotide-binding protein-like 1 или GTP-binding protein HSR1 на 100% соответствует запросу.

Полученное выравнивание:

>sp|P36915.2|GNL1_HUMAN  RecName: Full=Guanine nucleotide-binding protein-like 1;
AltName: Full=GTP-binding protein HSR1
Length=607

 GENE ID: 2794 GNL1 | guanine nucleotide binding protein-like 1 [Homo sapiens]
(Over 10 PubMed links)

 Score = 80.9 bits (198),  Expect = 1e-20, Method: Compositional matrix adjust.
 Identities = 79/79 (100%), Positives = 79/79 (100%), Gaps = 0/79 (0%)
 Frame = +3

Query  3    TWESHPETTELVVLQGRVGPAgdeeeeeeeelsssceeegeedrdadeegegdeeTPTSA  182
            TWESHPETTELVVLQGRVGPAGDEEEEEEEELSSSCEEEGEEDRDADEEGEGDEETPTSA
Sbjct  529  TWESHPETTELVVLQGRVGPAGDEEEEEEEELSSSCEEEGEEDRDADEEGEGDEETPTSA  588

Query  183  PGSSLAGRNPYALLGEDEC  239
            PGSSLAGRNPYALLGEDEC
Sbjct  589  PGSSLAGRNPYALLGEDEC  607

Моим экзоном кодируется C-концевой участок 529-607 найденного белка.

4. Ссылки из записи банка Swiss-Prot на записи банка EMBL

Таблица. Записи EMBL, в которых описан ген белка HutP_Bacsu

ID записи

Тип молекулы

Класс данных

Длина последовательности

Дата внесения в банк

Описание

AL009126

genomic DNA

STD

4215606

18-JUL- 2002

Bacillus subtilis subsp. subtilis str. 168 complete genome.

D31856

genomic DNA

STD

28954

22-DEC- 1994

Bacillus subtilis DNA, containing hut and wapA loci.

M20659

genomic DNA

STD

3932

20-FEB- 1989

B.subtilis hutH and hutP genes, encoding histidase and a positive regulatory protein, complete cds.

Первая последовательность ДНК, относящаяся к белку, получена в 1989 году. Последовательность кодирует гистидазу и белок, ответственный за позитивную регуляцию, и составляет приблизительно тысячную часть от последовательности полного генома бактерии, описанного в 2002 году.


© Eugenia Prokhorova 2011