Банк нуклеотидных последовательностей EMBL
Общие данные о системе SRS и банке EMBL
Последний релиз банка EMBL содержит 92831733 записей, он был проиндексирован
5 сентября 2008 года.
Список классов банка EMBL
* ANN: Constructed sequence with annotation * класс не проиндексирован
* CON: Constructed sequence * класс не проиндексирован
* EST: Expressed Sequence Tag * 54868004 записей
* GRV: Genome Reviews * класс не проиндексирован
* GSS: Genome Survey Sequence * 24420981 записей
* HTC: High Throughput cDNA sequencing * 524114 записей
* HTG: High Throughput Genome sequencing * 135664 записей
* MGA: Mass Genome Annotation * класс не проиндексирован
* PAT: Patent * 6175434 записей
* SET: Project set (EMBL WGS Masters only) * класс не проиндексирован
* STD: Standard * 5752704 записей
* STS: Sequence Tagged Site * 945908 записей
* TPA: Third Party Annotation * 5919 записей
* TSA: Transcriptome Shotgun Assembly * 3005 записей
* WGS: Whole Genome Shotgun * класс не проиндексирован
Список разделов банка EMBL
* ENV: Образцы из окружающей среды * 3614899 записей
* FUN: Грибы * 2524681 записей
* HUM: Человек * 11540219 записей
* INV: Беспозвоночные * 13679938 записей
* MAM: Другие млекопитающие * 8686059 записей
* MUS: Домовая мышь * 7330487 записей
* PHG: Бактериофаги * 4896 записей
* PLN: Растения * 28334269 записей
* PRO: Прокариоты * 675972 записей
* ROD: Грызуны * 1804253 записей
* SYN: Синтетические * 1500620 записей
* TGN: Трансгенные * 265445 записей
* UNC: Неклассифицированные * 2956530 записей
* VRL: Вирусы * 624900 записей
* VRT: Другие позвоночные * 9288565 записей
Статистика поступления данных в банк EMBL
Диаграмма показывает, сколько стандартных записей (класса STD) появилось
в каждом из 4 разделов VPL, INV, PRO, HUM за май 2007 и 2008 годов.
Можно видеть, что число записей, поступивших в банк данных в 2008 году
в несколько раз превосходит таковое для 2007 года. Причем больше всего
данных поступило в мае 2008 в раздел INV - беспозвоночных организмов.
Информация о гене 1С7 из записи BA000025
Относительно направления, выбранного для записи, данный ген расположен прямо.
Число кодирующих участков равно 4. Длина первого из них составляет 43,
последнего - 38 нуклеотидов. Длины первого и последнего интронов между кодирующими
участками составляют соответственно 2552 и 294 нуклеотидов.
Поиск белка по кодирующему участку гена
При помощи программы seqret с опцией -sask была вырезана самая длинная кодирующая
нуклеотидная последовательность гена 1C7: 353899..354243.
Далее на странице http://blast.ncbi.nlm.nih.gov/ была выбрана программа
blastx, позволяющая найти белковые последовательности из базы данных SwissProt,
соответствующие нуклеотидной последовательности, подаваемой на вход.
В поле upload file был подан файл в fasta-формате с вырезанной ранее
последовательностью. В поле database был выбран банк swissprot, после
чего был запущен поиск.
В результате нашлось большое количество белков, в том числе и искомый,
имеющий номер O14931 (первый в списке выдачи). Участок этого белка с 16 по 108
аминокислотные остатки соответствует экзону.
Характеристика записей EMBL
Идентификатор записи EMBL |
Тип молекулы |
Класс данных |
Раздел EMBL |
Дата создания документа |
Описание |
Длина последовательности |
AP009048 |
genomic DNA |
STD |
PRO |
22-JAN-2006 |
Escherichia coli W3110 DNA, complete genome. |
4646332 |
U00096 |
genomic DNA |
STD |
PRO |
23-FEB-2006 |
Escherichia coli str. K-12 substr. MG1655, complete genome. |
4639675
|
Обе имеющиеся записи относятся к классу данных STD и описывают молекулу ДНК
организма Escherichia coli.
|