Знакомство со структурой EMBL с помощью SRS
Текущий релиз EMBL, проиндексированный в SRS 18 сентября 2012 года, имеет номер 113 и содержит
Обозначение | Описание | Количество записей |
CON | Constructed sequence | — |
EST | Expressed Sequence Tag | — |
GRV | Genome Reviews | — |
GSS | Genome Survey Sequence | 34 528 104 |
HTC | High Throughput cDNA sequencing | 491 770 |
HTG | High Throughput Genome sequencing | 152 599 |
MGA | Mass Genome Annotation | — |
PAT | Patent | 24 364 832 |
SET | Project set (EMBL WGS Masters only) | — |
STD | Standard | 13 920 617 |
STS | Sequence Tagged Site | 1 322 570 |
TSA | Transcriptome Shotgun Assembly | 7 992 186 |
WGS | Whole Genome Shotgun | — |
Записи классов CON, EST, GRV, MGA, SET и WGS в SRS не проиндексированы.
Разделы (приведены не по алфавиту, а в логическом порядке):
Обозначение | Описание | По-русски | Количество записей |
HUM | Human | Человек | 11 304 977 |
MUS | Mus musculus | Мышь | 5 163 724 |
ROD | Rodents | Прочие грызуны | 1 313 761 |
MAM | Other Mammals | Прочие млекопитающие | 6 741 732 |
VRT | Other Vertebrates | Прочие позвоночные | 4 446 330 |
INV | Invertebrates | Беспозвоночные | 7 398 340 |
PLN | Plants | Растения | 2 0284 404 |
FUN | Fungi | Грибы | 2 402 829 |
PRO | Prokaryotes | Прокариоты | 1 639 517 |
PHG | Bacteriophage | Бактериофаги | 8 503 |
VRL | Viruses | Прочие вирусы | 1 358 516 |
TGN | Transgenic | Трансгенные | 285 306 |
SYN | Synthetic | Синтетические | 4 045 013 |
ENV | Environmental Samples | Пробы окружающей среды | 7 762 556 |
UNC | Unclassified | Неклассифицированные | 8 617 170 |
Выберем разделы: HUM, FUN, PRO и ENV. Столбчатая диаграмма здесь особенно не поможет (поскольку сравнивать разделы между собой просто так нельзя — у них разная специфика и темпы поступления зависят от разных факторов, а для сравнения двух значений за разные периоды одинаковой длины она не нужна), запишем таблицу:
Раздел | Поступлений за 01—03.2011 | Поступлений за 01—03.2012 |
HUM | 61 602 | 139 586 (+126%) |
FUN | 41 816 | 60 641 (+45%) |
PRO | 23 395 | 45 321 (+94%) |
ENV | 409 258 | 565 213 (+38%) |
Как видно, темпы секвенирования разных последовательностей растут ударными темпами и останавливаться не собираются.
Описание заданного гена в записи EMBL
Заданный ген: G6C
. Фрагмент записи, связанный с ним:
FT exon 222296..222401 FT /gene="G6C" FT /number=1 FT CDS join(222350..222401,223826..223936,224719..224933) FT /codon_start=1 FT /transl_table=1 FT /gene="G6C" FT /function="Leukocyte maturation" FT /note="Ly6 family member" FT /note="alternative name: NG24" FT /db_xref="GDB:11504821" FT /db_xref="GOA:O95867" FT /db_xref="HGNC:13936" FT /db_xref="InterPro:IPR018363" FT /db_xref="UniProtKB/Swiss-Prot:O95867" FT /protein_id="BAB63379.1" FT /translation="MKALMLLTLSVLLCWVSADIRCHSCYKVPVLGCVDRQSCRLEPGQ FT QCLTTHAYLGKMWVFSNLRCGTPEEPCQEAFNQTNRKLGLTYNTTCCNKDNCNSAGPRP FT TPALGLVFLTSLAGLGLWLLH" FT exon 223826..223936 FT /gene="G6C" FT /number=2 FT exon 224719..225381 FT /gene="G6C" FT /number=3
Поскольку в определении CDS отсутствует запись complement(...)
, ген находится на прямой (условно выбранной для записи) цепи. Его кодируют три участка, длина первого — 52, второго — 111, последнего — 215. (Длину вычисляем как разница между крайними основаниями плюс один). Интронов всего два, их длины — 424 и 782. (Длину интрона определяем как разница между крайними основаниями минус один).
Нахождение белка по фрагменту гена
Самый длинный кодирующий участок (последний, 215 нуклеотидных пар), полученный с помощью seqret:
>BA000025 BA000025.2 Homo sapiens genomic DNA, chromosome 6p21.3, HLA Class I region. gtaagatgtgggttttctccaatctgcgctgtggcacaccagaagagccctgtcaggagg ccttcaaccaaaccaaccgcaagctgggtctgacatataacaccacctgctgcaacaagg acaactgcaacagcgcaggaccccggcccactccagccctgggccttgtcttccttacct ccttggctggccttggcctctggctgctgcactga
На сайте BLAST эту последовательность следует подать на вход программе blastx, которая ищет среди белков по заданной нуклеотидной последовательности. Выбираем blastx, выставляем единственную настройку — в поле database выбираем «UniProtKB/Swiss-Prot», нажимаем BLAST. У меня нашлись шесть белков (при остальных настройках по умолчанию), из них три с очень хорошим совпадением (Expect = 3e−24, 4e−28, 1e−35) и три — явно не те (хотя, что интересно, первый из них, с e-value 1.8, относится к тому же классу, только не 6C, а 6B). Нашедшийся белок называется «Lymphocyte antigen 6 complex locus protein G6c», а нашелся он у человека, мыши и коровы. Его длина — 125 (у мыши 126), а совпали с заданной последовательностью (конкретно, 3—173/170) аминокислотные остатки 56(57)—112.
Ссылки из записи банка SwissProt на записи банка EMBL
Запись UniProt для моего белка можно посмотреть прямо на сайте UniProt. Только в двух запсях EMBL описан ген YVDD_BACSU:
ID записи | Тип молекулы | Класс данных | Дата внесения в банк | Описание | Длина последовательности |
AL009126 | геномная ДНК | STD | 2002-07-18 | Bacillus subtilis subsp. subtilis str. 168 complete genome. | 4215606 |
Z94043 | геномная ДНК | STD | 1997-04-21 | B.subtilis genomic DNA fragment (88 kb) | 88063 |