Банк EMBL
1. Знакомство со структурой банка EMBL посредством поисковой системы SRS
При выполнении использую SRS на сайте EBI: srs.ebi.ac.uk
Последний проиндексированный в системе релиз EMBL - 113-ый, 18.09.12, содержит 82772678 записей.
Список классов (Data Class) банка EMBL:
CON: Constructed sequence - записи не проиндексированы EST: Expressed Sequence Tag - записи не проиндексированы GRV: Genome Reviews - записи не проиндексированы GSS: Genome Survey Sequence - 34528104 записей HTC: High Throughput cDNA sequencing - 491770 записей HTG: High Throughput Genome sequencing - 152599 записей MGA: Mass Genome Annotation - записи не проиндексированы PAT: Patent - 24364832 записей SET: Project set (EMBL WGS Masters only) - записи не проиндексированы STD: Standard - 13920617 записей STS: Sequence Tagged Site - 1322570 записей TSA: Transcriptome Shotgun Assembly - 7992186 записей WGS: Whole Genome Shotgun - записи не проиндексированы
Список разделов (Divisions) банка EMBL:
ENV: Environmental Samples, образцы окружающей среды - 7762556 записей FUN: Fungi, грибы - 2402829 записей HUM: Human, человек - 11304977 записей INV: Invertebrates, беспозвоночные - 7398340 записей MAM: Other Mammals, другие млекопитающие - 6741732 записей MUS: Mus musculus, домо́вая мышь - 5163724 записей PHG: Bacteriophage, бактериофаги - 8503 записей PLN: Plants, растения - 20284404 записей PRO: Prokaryotes, прокариоты - 1639517 записей ROD: Rodents, грызуны - 1313761 записей SYN: Synthetic, синтетические - 4045013 записей TGN: Transgenic, трансгенные - 285306 записей UNC: Unclassified, неклассифицированные записи - 8617170 записей VRL: Viruses, вирусы - 1358516 записей VRT: Other Vertebrates, другие позвоночные - 4446330 записей
Изучаю поступление стандартных (класса STD) записей в разделы HUM, MUS, VLS за период 14.06 - 18.09 2012 года и за период 03.06 - 08.09 2011 года.
Диаграмма 1. Изменение общего числа записей
Диаграмма 2. Поступление данных за периоды
Диаграммы получены с помощью std.xlsx
Поступление данных в разделы класса STD замедлилось, особенно в случае Mus musculus (приблизительно в 5,5 раз). По количеству записей, поступающих в раздел, и по общему числу записей вирусы сильно опtрежают человека и домо́вую мышь, хотя в разделе HUM записей на порядок больше, чем в разделе VRL.
2. Описание гена в записи банка EMBL
Код доступа BA000025, ген HSR1.
Направление гена относительно направления, выбранного для записи - прямое.
Число кодирующих участков - 8, а число экзонов - 12.
Длина первого кодирующего участка - 42, последнего - 242.
Длина первого интрона между кодирующими участками - 17, последнего - 382.
3. Нахождение белка по фрагменту гена
Cамый длинный экзон - последний, вырезан в файл HSR1.seqret (программой seqret с опцией -sask).
На странице http://blast.ncbi.nlm.nih.gov/ перехожу по ссылке blastx, ввожу участок нуклеотидной последовательности в формате fasta, выбираю БД - swissprot и организм - Homo Sapiens (необязательно).
Поиск дал 16 результатов, первый из которых - Guanine nucleotide-binding protein-like 1 или GTP-binding protein HSR1 на 100% соответствует запросу.
Полученное выравнивание:
>sp|P36915.2|GNL1_HUMAN RecName: Full=Guanine nucleotide-binding protein-like 1; AltName: Full=GTP-binding protein HSR1 Length=607 GENE ID: 2794 GNL1 | guanine nucleotide binding protein-like 1 [Homo sapiens] (Over 10 PubMed links) Score = 80.9 bits (198), Expect = 1e-20, Method: Compositional matrix adjust. Identities = 79/79 (100%), Positives = 79/79 (100%), Gaps = 0/79 (0%) Frame = +3 Query 3 TWESHPETTELVVLQGRVGPAgdeeeeeeeelsssceeegeedrdadeegegdeeTPTSA 182 TWESHPETTELVVLQGRVGPAGDEEEEEEEELSSSCEEEGEEDRDADEEGEGDEETPTSA Sbjct 529 TWESHPETTELVVLQGRVGPAGDEEEEEEEELSSSCEEEGEEDRDADEEGEGDEETPTSA 588 Query 183 PGSSLAGRNPYALLGEDEC 239 PGSSLAGRNPYALLGEDEC Sbjct 589 PGSSLAGRNPYALLGEDEC 607
Моим экзоном кодируется C-концевой участок 529-607 найденного белка.
4. Ссылки из записи банка Swiss-Prot на записи банка EMBL
Таблица. Записи EMBL, в которых описан ген белка HutP_Bacsu
ID записи |
Тип молекулы |
Класс данных |
Длина последовательности |
Дата внесения в банк |
Описание |
AL009126 |
genomic DNA |
STD |
4215606 |
18-JUL- 2002 |
Bacillus subtilis subsp. subtilis str. 168 complete genome. |
D31856 |
genomic DNA |
STD |
28954 |
22-DEC- 1994 |
Bacillus subtilis DNA, containing hut and wapA loci. |
M20659 |
genomic DNA |
STD |
3932 |
20-FEB- 1989 |
B.subtilis hutH and hutP genes, encoding histidase and a positive regulatory protein, complete cds. |
Первая последовательность ДНК, относящаяся к белку, получена в 1989 году. Последовательность кодирует гистидазу и белок, ответственный за позитивную регуляцию, и составляет приблизительно тысячную часть от последовательности полного генома бактерии, описанного в 2002 году.
© Eugenia Prokhorova 2011