Учебный сайт Кирилла Цуканова → Третий семестр

Работа с генетическими базами данных

Знакомство со структурой EMBL с помощью SRS

Текущий релиз EMBL, проиндексированный в SRS 18 сентября 2012 года, имеет номер 113 и содержит 82 772 678 записей. Список классов:

ОбозначениеОписаниеКоличество записей
CONConstructed sequence
ESTExpressed Sequence Tag
GRVGenome Reviews
GSSGenome Survey Sequence34 528 104
HTCHigh Throughput cDNA sequencing491 770
HTGHigh Throughput Genome sequencing152 599
MGAMass Genome Annotation
PATPatent24 364 832
SETProject set (EMBL WGS Masters only)
STDStandard13 920 617
STSSequence Tagged Site1 322 570
TSATranscriptome Shotgun Assembly7 992 186
WGSWhole Genome Shotgun

Записи классов CON, EST, GRV, MGA, SET и WGS в SRS не проиндексированы.

Разделы (приведены не по алфавиту, а в логическом порядке):

ОбозначениеОписаниеПо-русскиКоличество записей
HUMHumanЧеловек11 304 977
MUSMus musculusМышь5 163 724
RODRodentsПрочие грызуны1 313 761
MAMOther MammalsПрочие млекопитающие6 741 732
VRTOther VertebratesПрочие позвоночные4 446 330
INVInvertebratesБеспозвоночные7 398 340
PLNPlantsРастения2 0284 404
FUNFungiГрибы2 402 829
PROProkaryotesПрокариоты1 639 517
PHGBacteriophageБактериофаги8 503
VRLVirusesПрочие вирусы1 358 516
TGNTransgenicТрансгенные285 306
SYNSyntheticСинтетические4 045 013
ENVEnvironmental SamplesПробы окружающей среды7 762 556
UNCUnclassifiedНеклассифицированные8 617 170

Выберем разделы: HUM, FUN, PRO и ENV. Столбчатая диаграмма здесь особенно не поможет (поскольку сравнивать разделы между собой просто так нельзя — у них разная специфика и темпы поступления зависят от разных факторов, а для сравнения двух значений за разные периоды одинаковой длины она не нужна), запишем таблицу:

РазделПоступлений за 01—03.2011Поступлений за 01—03.2012
HUM61 602139 586 (+126%)
FUN41 81660 641 (+45%)
PRO23 39545 321 (+94%)
ENV409 258565 213 (+38%)

Как видно, темпы секвенирования разных последовательностей растут ударными темпами и останавливаться не собираются.

Описание заданного гена в записи EMBL

Заданный ген: G6C. Фрагмент записи, связанный с ним:

FT   exon            222296..222401
FT                   /gene="G6C"
FT                   /number=1
FT   CDS             join(222350..222401,223826..223936,224719..224933)
FT                   /codon_start=1
FT                   /transl_table=1
FT                   /gene="G6C"
FT                   /function="Leukocyte maturation"
FT                   /note="Ly6 family member"
FT                   /note="alternative name: NG24"
FT                   /db_xref="GDB:11504821"
FT                   /db_xref="GOA:O95867"
FT                   /db_xref="HGNC:13936"
FT                   /db_xref="InterPro:IPR018363"
FT                   /db_xref="UniProtKB/Swiss-Prot:O95867"
FT                   /protein_id="BAB63379.1"
FT                   /translation="MKALMLLTLSVLLCWVSADIRCHSCYKVPVLGCVDRQSCRLEPGQ
FT                   QCLTTHAYLGKMWVFSNLRCGTPEEPCQEAFNQTNRKLGLTYNTTCCNKDNCNSAGPRP
FT                   TPALGLVFLTSLAGLGLWLLH"
FT   exon            223826..223936
FT                   /gene="G6C"
FT                   /number=2
FT   exon            224719..225381
FT                   /gene="G6C"
FT                   /number=3

Поскольку в определении CDS отсутствует запись complement(...), ген находится на прямой (условно выбранной для записи) цепи. Его кодируют три участка, длина первого — 52, второго — 111, последнего — 215. (Длину вычисляем как разница между крайними основаниями плюс один). Интронов всего два, их длины — 424 и 782. (Длину интрона определяем как разница между крайними основаниями минус один).

Нахождение белка по фрагменту гена

Самый длинный кодирующий участок (последний, 215 нуклеотидных пар), полученный с помощью seqret:

>BA000025 BA000025.2 Homo sapiens genomic DNA, chromosome 6p21.3, HLA Class I region.
gtaagatgtgggttttctccaatctgcgctgtggcacaccagaagagccctgtcaggagg
ccttcaaccaaaccaaccgcaagctgggtctgacatataacaccacctgctgcaacaagg
acaactgcaacagcgcaggaccccggcccactccagccctgggccttgtcttccttacct
ccttggctggccttggcctctggctgctgcactga

На сайте BLAST эту последовательность следует подать на вход программе blastx, которая ищет среди белков по заданной нуклеотидной последовательности. Выбираем blastx, выставляем единственную настройку — в поле database выбираем «UniProtKB/Swiss-Prot», нажимаем BLAST. У меня нашлись шесть белков (при остальных настройках по умолчанию), из них три с очень хорошим совпадением (Expect = 3e−24, 4e−28, 1e−35) и три — явно не те (хотя, что интересно, первый из них, с e-value 1.8, относится к тому же классу, только не 6C, а 6B). Нашедшийся белок называется «Lymphocyte antigen 6 complex locus protein G6c», а нашелся он у человека, мыши и коровы. Его длина — 125 (у мыши 126), а совпали с заданной последовательностью (конкретно, 3—173/170) аминокислотные остатки 56(57)—112.

Ссылки из записи банка SwissProt на записи банка EMBL

Запись UniProt для моего белка можно посмотреть прямо на сайте UniProt. Только в двух запсях EMBL описан ген YVDD_BACSU:

ID записиТип молекулыКласс данныхДата внесения в банкОписаниеДлина последовательности
AL009126геномная ДНКSTD2002-07-18Bacillus subtilis subsp. subtilis str. 168 complete genome. 4215606
Z94043геномная ДНКSTD1997-04-21B.subtilis genomic DNA fragment (88 kb)88063