Банк нуклеотидных последовательностей EMBL

Задание 1

Cистема SRS позволяет получить некоторую информацию о банке EMBL.

Следуя по гиперссылкам "Library Page" -> "EMBL (release)", мы попадаем на соответствующую страницу, содержащую дату последнего проиндексированного в системе релиза EMBL и количество записей в нём. На данный момент это релиз от 7 сентября 2009 года, имеющий 108577013 записей.

С той же страницы переходим по ссылке "Data Class" (одно из полей в таблице) и видим список классов банка. Чтобы узнать число записей, нужно нажать кнопку "List values".
КлассОписаниеЧисло записей
ANN Constructed sequence with annotation 
CON Constructed sequence 
EST Expressed Sequence Tag 62846990
GRV Genome Reviews 
GSS Genome Survey Sequence 25905073
HTC High Throughput cDNA sequencing 549753
HTG High Throughput Genome sequencing 142473
MGA Mass Genome Annotation 
PAT Patent 10439165
SET Project set (EMBL WGS Masters only) 
STD Standard 7253026
STS Sequence Tagged Site 1310171
TPA Third Party Annotation 6520
TSA Transcriptome Shotgun Assembly 123842
WGS Whole Genome Shotgun 
Цветом выделены классы, записи которых не проиндексированы в SRS.

Перейдя со страницы "EMBL (release)" по ссылке "Divisions", можно узнать разделы банка EMBL.
РазделОписаниеЧисло записей
ENV Образцы из окружающей среды 4145029
FUN Грибы3942084
HUM Человек12841544
INV Беспозвоночные15518735
MAM Другие млекопитающие9429823
MUS Домовая мышь7424621
PHG Бактериофаги5865
PLN Растения33806044
PRO Прокариоты909986
ROD Грызуны2261678
SYN Синтетические2671622
TGN Трансгенные265465
UNC Неклассифицированные3945859
VRL Вирусы827405
VRT Другие позвоночные10581253

Проанализируем некоторые разделы. Диаграмма составлена по данным системы SRS.
HUM. Как известно, человеческий геном почти полностью отсеквенирован, поэтому в банк поступает всё меньше записей с нуклеинвыми кислотами людей.
ENV. Судя по данным, возрастает интерес к нуклеиновым кислотам, свободно существующим в окружающей среде.
PRO. Видно, что банк стабильно пополняется геномами прокариот.

Задание 2

Для выполнения следующих заданий мне был выдан ген CLIC1, описанный в записи EMBL с кодом доступа BA000025.

По записи я узнал следующее:
Ген направлен так же, как выбрано для записи. Ген содержит 6 экзонов. Длина первого - 39 п.о., последнего - 162 п.о. Длина первого интрона - 2002, последнего - 1213.

Задание 3

Я взял последовательность самого длинного экзона данного гена, чтоб найти белок, который он кодирует. Для этого на я воспользовался одной из программ пакета BLAST на сайте NCBI (http://blast.ncbi.nlm.nih.gov/). По описаниям программ я выбрал подходящую:

blastx | Search protein database using 
       | a translated nucleotide query
На странице программы скопировал в запрос последовательность экзона и в поле "Database" выбрал банк Swiss-Prot.

В результате был найден белок CLIC1_HUMAN (Идентичность: 100%). Последовательность экзона с 3 по 182 п.о. соответствует последовательности белка с 129 по 188 а.о. То есть рамка считывания здесь идёт с третьего нуклеотида.

Задание 4

C помощью SRS я получил следующую информацию:

Идентификатор записи EMBL Тип молекулы Класс данных Раздел EMBL Длина последовательности Дата создания
документа
Описание
AP009048 genomic DNA STD PRO 4646332 22-JAN-2006 Escherichia coli str. K12 substr. W3110 DNA, complete genome.
M23630 genomic DNA STD PRO 1759 06-JUL-1989 Esherichia coli protease VII gene, complete cds.
U00096 genomic DNA STD PRO 4639675 23-FEB-2006 Escherichia coli str. K-12 substr. MG1655, complete genome.
U82598 genomic DNA STD PRO 136742 21-JAN-1997 Escherichia coli genomic sequence of minutes 9 to 12.
X06903 genomic DNA STD PRO 2035 02-NOV-1988 E. coli ompT gene for outer membrane protease

Все записи описывают геномные ДНК кишечной палочки. Но записи AP009048 и U00096 сильно отличаются от остальных. Они описывают полные геномы разных штаммов и созданы намного позже остальных.



© Айдарханов Руслан 2008