Главная
Учебные материалы

Банк нуклеотидных последовательностей EMBL

1.a. Текущий релиз был проиндексирован 5 декабря 2008 года и содержит 97659985 записей.
1.b. Информация о классах EMBL
ANN Constructed sequence with annotation Записи этого класса не проиндексированы
CON Constructed sequence Записи этого класса не проиндексированы
EST Expressed Sequence Tag 58422143
GRV Genome Reviews Записи этого класса не проиндексированы
GSS Genome Survey Sequence 24604053
HTC High Throughput cDNA sequencing 531057
HTG High Throughput Genome sequencing 138136
MGA Mass Genome Annotation Записи этого класса не проиндексированы
PAT Patent 6557610
SET Project set (EMBL WGS Masters only) Записи этого класса не проиндексированы
STD Standard 6098682
STS Sequence Tagged Site 1299097
TPA Third Party Annotation 6012
TSA Transcriptome Shotgun Assembly 3195
WGS Whole Genome Shotgun Записи этого класса не проиндексированы
1.c. Информация о разделах EMBL
ENV Образцы из окружающей среды 3675528
FUN Грибы 2645486
HUM Человек 11699686
INV Беспозвоночные 13983439
MAM Другие млекопитающие 9074969
MUS Мышь домовая 7338348
PHG Бактериофаги 4998
PLN Растения 31241789
PRO Прокариоты 739235
ROD Грызуны 1920985
SYN Синтетические 1613314
TGN Трансгенетические 265449
UNC Непроклассифицированные 3004383
VRL Вирусы 652031
VRT Другие позвоночные 9800345
2.Описание гена NG22 в записи BA000025 банка EMBL

Направление гена относительно направления, выбранного для записи: прямое;
Число кодирующих участков: 21;
Длина первого кодирующего участка: 40;
Длина последнего кодирующего участка: 122;
Длина первого интрона: 1858;
Длина последнего интрона: 903.
3.Для того, чтобы вырезать участок нуклеотидной последовательности в отдельный файл необходимо:
  • Подключиться к машине с установленным пакетом EMBOSS
  • В случае ОС Linux команда будет выглядеть следующим образом: #seqret -sequence Seq_Name -sask
  • Seq_Name в данном случае - BA000025.embl;
  • Begin at position [start] - номер позиции, с которой начинается неоходимый участок - 80083;
  • End at position [end] - номер позиции, на которой заканчивается необходимый участок - 800412;
  • Reverse strand - комплементарня цепь(Y or N), в данном случае N;
  • Output sequence(s) - выходной файл - NG22_l.fasta.
Для того, чтобы найти в Swiss-Prot соответствующий белок необходимо:
  • Зайти на страницу http://blast.ncbi.nlm.nih.gov/"
  • Перейти по ссылке BlastX (ищет белки по заданной нуклеотидной последовательности)
  • Одним из нескольких возможных способов подать на вход последовательность выходного файла полученного ранее и нажать

Результат работы:
Нашлось несколько белков. Самый первый результат имеет белок CTL4 с идентефикатором Q53GD3.1 : E-value 3e-16. Данный белок выделен из человека. Исследуемый участок кодирует с 672 по 710 аминокислоты.
4.Описание всех ссылок на банк EMBL из записи P0A6I3 банка Swiss-Prot.
Идентификатор записи EMBL Тип молекулы Класс Раздел Длина последовательности Дата создания Описание
AP009048
genomic DNA
STD
PRO
4646332
22-JAN-2006
Escherichia coli str. K12 substr. W3110 DNA, complete genome.
M36321
genomic DNA
STD
PRO
1490
11-AUG-1990
Escherichia coli rts gene, complete cds.
M90071
genomic DNA
STD
PRO
1540
27-MAR-1992
Escherichia coli pantothenate kinase (coaA) gene, complete cds.
U00006
genomic DNA
STD
PRO
176195
22-SEP-1993
E. coli chromosomal region from 89.2 to 92.8 minutes.
U00096
genomic DNA
STD
PRO
4639675
23-FEB-2006
Escherichia coli str. K-12 substr. MG1655, complete genome.
Выводы:
Во всех рассмотренные записях тип молекулы одинаковый. Записи относятся к одному классу данных и находятся в одном разделе EMBL. Удивлят временной разброс записей 1990-2006. Описание уточнялись, в основном, информацией о штамме бактерии и области секвенирования. Длина последовательностей в двух последних записях (2006 года) самая большая, так как там представлены полные геномы Escherichia coli.
©Залевский, Артур, 2007