Учебный сайт

Бредихина Данилы

Учебный сайт Бредихина Данилы

Занятие 5: Банк EMBL

Знакомство со структурой банка EMBL посредством поисковой системы SRS

При выполнении работы использовался SRS на сайте EBI.

Последний релиз EMBL (113) был проиндексирован в системе 18 сентября 2012 года и содержит 82772678 записей.

Список классов банка EMBL (Data Class):

Обозначение класса Описание класса Число записей, проиндексированных SRS для релиза 113 EMBL
CON Constructed sequence -
EST Expressed Sequence Tag -
GRV Genome Reviews -
GSS Genome Survey Sequence 34528104
HTC High Throughput cDNA sequencing 491770
HTG High Throughput Genome sequencing 152599
MGA Mass Genome Annotation -
PAT Patent 24364832
SET Project set (EMBL WGS Masters only) -
STD Standard 13920617
STS Sequence Tagged Site 1322570
TSA Transcriptome Shotgun Assembly 7992186
WGS Whole Genome Shotgun -

Как мы видим, в SRS не проиндексированы записи классов CON, EST, GRV, MGA, SET и WGS.


Список разделов банка EMBL (Division):

Обозначение класса Описание класса Число записей в релизе 113 EMBL
ENV Пробы среды (Environmental Samples) 7762556
FUN Грибы (Fungi) 2402829
HUM Человек (Human) 11304977
INV Беспозвоночные (Invertebrates) 7398340
MAM Другие млекопитающие (Other Mammals) 6741732
MUS Домовая мышь (Mus musculus) 5163724
PHG Бактериофаги (Bacteriophage) 8503
PLN Растения (Plants) 20284404
PRO Прокариоты (Prokaryotes) 1639517
ROD Грызуны (Rodents) 1313761
SYN Искусственные (Synthetic) 4045013
TGN Трансгенные (Transgenic) 285306
UNC Неклассифицированные (Unclassified) 8617170
VRL Вирусы (Viruses) 1358516
VRT Другие позвоночные (Other Vertebrates) 4446330

Выберем несколько разделов банка EMBL, например, HUM, MUS, MAM и PRO. Определим, сколько стандартных (класса STD) записей появилось в каждом из этих разделов за июнь - сентябрь 2012 года и за тот же период 2011 года (для этого можно воспользоваться расширенной формой поиска - Extended Query form). Результаты в виде столбчатой диаграммы и диграммы накопления приведены ниже.

Как мы видим, темп поступления стандартных записей для каждого из рассмотренных разделов снизился, при этом для разделов MUS и MAM весьма значительно. В данном случае можно говорить о замедлении поступления информации (записей класса STD) в указанные разделы.

Описание гена в записи банка EMBL

Рассмотрим ген CSNK2B, описанный в записи EMBL с кодом доступа BA000025 (см. файл BA000025.embl).

Для него можно привести следующую информацию:

Направление гена относительно направления, выбранного для записи обратное
Число кодирующих участков 6
Длина первого кодирующего участка 91
Длина последнего кодирующего участка 72
Длина первого интрона между кодирующими участками 327
Длина последнего интрона между кодирующими участками 964

Нахождение белка по фрагменту гена

Самым длинным кодирующим участком является второй кодирующий участок (274520..274709). Вырежем его программой seqret, помня об обратном направлении гена относительно направления, выбранного для записи:

seqret BA000025.embl -sask

В результате получим файл csnk2b.fasta.

На домашней странице BLAST запустим blastx. Эта программа сравнивает вероятные продукты трансляции заданной нуклеотидной последовательности (6 вариантов, если учитывать две цепи и 3 возможных рамки считывания) с записями в базе данных белковых последовательностей.

В поле для ввода последовательности введём полученную последовательность кодирующего участка гена CSNK2B. Выберем необходимую базу данных: UniProtKB/Swiss-Prot(swissprot) в соответствующем поле для выбора базы данных для осуществления поиска. Так как исследуемым организмом является человек, то можно ограничить поиск только белками человека, выбрав human (taxid:9606) в поле Organism.

После завершения процесса поиска по последовательности кодирующего участка гена CSNK2B был найден соответствующий белок: Casein kinase II subunit beta (P67870). Как видно из приведённого ниже выравнивания, искомой последовательности кодирующего участка гена соответствует участок 124-185 белка. (В последовательности кодирующего участка предполагается сдвиг рамки считывания на 2 нуклеотидные позиции.)

С помощью программ визуализации пространственных структур макромолекул можно наглядно представить, какой участок белка соответствует рассматриваемому кодирующему участку:


Ссылки из записи банка Swiss-Prot на записи банка EMBL

Исследуемым белком является белок CDD_BACSU. Запись Swiss-Prot этого белка можно получить следующей командой:

entret sw:p19079

В результате получаем файл cdd_bacsu.entret. В записи содержатся следующие ссылки на банк EMBL:

С использованием SRS заполним таблицу:

Записи EMBL, в которых описан ген белка CDD_BACSU

ID записи Тип молекулы Класс данных Дата внесения в банк Описание Длина последовательности
U18532 геномная ДНК стандартные (STD) 1 января 1995 Ген цитидиндезаминазы (cdd) Сенной палочки и ген G-белка Bex, полный кодирующий участок. 2089
X17430 геномная ДНК стандартные (STD) 9 декабря 1991 ДНК Сенной палочки гена cdd, кодирующего цитидин/дезоксицитидин-дезаминазу. 1170
D84432 геномная ДНК стандартные (STD) 9 мая 1996 ДНК Сенной палочки, участок длиной 283 Kb, содержащий элемент покрова. 282700
K02174 геномная ДНК стандартные (STD) 7 ноября 1985 Фрагмент P43 Сенной палочки, содержащий 2 перекрывающихся промотора. 476
AL009126 геномная ДНК стандартные (STD) 18 июля 2002 Полный геном штамма 168 подвида subtilis Сенной палочки. 4215606
U29177 геномная ДНК стандартные (STD) 19 июля 1995 Ген PhoH Сенной палочки, фрагмент кодирующего участка; ген диацилглицерол-киназы (dgk), полный кодирующий участок; Ген цитидиндезаминазы (cdd), фрагмент кодирующего участка. 3346

В ходе выполнения работы в SRS была создана таблица, содержащая следующие поля ID, Molecule, Data class, Sequence Length, Entry Creation Date и Description: файл cdd_bacsu_embl_srs.txt.


Ссылки

  1. Файл BA000025.embl.
  2. Файл csnk2b.fasta.
  3. Файл 4dgl.pdb.
  4. Файл cdd_bacsu.entret.
  5. Файл cdd_bacsu_embl_srs.txt.
< На страницу семестра ∧ Наверх