Cистема SRS позволяет получить некоторую информацию о банке EMBL.
Следуя по гиперссылкам "Library Page" -> "EMBL (release)", мы попадаем на соответствующую страницу, содержащую дату последнего проиндексированного в системе релиза EMBL и количество записей в нём. На данный момент это релиз от 7 сентября 2009 года, имеющий 108577013 записей.
С той же страницы переходим по ссылке "Data Class" (одно из полей в таблице) и видим список классов банка. Чтобы узнать число записей, нужно нажать кнопку "List values".
| Класс | Описание | Число записей |
|---|---|---|
| ANN | Constructed sequence with annotation | |
| CON | Constructed sequence | |
| EST | Expressed Sequence Tag | 62846990 |
| GRV | Genome Reviews | |
| GSS | Genome Survey Sequence | 25905073 |
| HTC | High Throughput cDNA sequencing | 549753 |
| HTG | High Throughput Genome sequencing | 142473 |
| MGA | Mass Genome Annotation | |
| PAT | Patent | 10439165 |
| SET | Project set (EMBL WGS Masters only) | |
| STD | Standard | 7253026 |
| STS | Sequence Tagged Site | 1310171 |
| TPA | Third Party Annotation | 6520 |
| TSA | Transcriptome Shotgun Assembly | 123842 |
| WGS | Whole Genome Shotgun |
Перейдя со страницы "EMBL (release)" по ссылке "Divisions", можно узнать разделы банка EMBL.
| Раздел | Описание | Число записей |
|---|---|---|
| ENV | Образцы из окружающей среды | 4145029 |
| FUN | Грибы | 3942084 |
| HUM | Человек | 12841544 |
| INV | Беспозвоночные | 15518735 |
| MAM | Другие млекопитающие | 9429823 |
| MUS | Домовая мышь | 7424621 |
| PHG | Бактериофаги | 5865 |
| PLN | Растения | 33806044 |
| PRO | Прокариоты | 909986 |
| ROD | Грызуны | 2261678 |
| SYN | Синтетические | 2671622 |
| TGN | Трансгенные | 265465 |
| UNC | Неклассифицированные | 3945859 |
| VRL | Вирусы | 827405 |
| VRT | Другие позвоночные | 10581253 |
Проанализируем некоторые разделы. Диаграмма составлена по данным системы SRS.
HUM. Как известно, человеческий геном почти полностью отсеквенирован, поэтому в банк поступает всё
меньше записей с нуклеинвыми кислотами людей.
ENV. Судя по данным, возрастает интерес к нуклеиновым кислотам, свободно существующим в
окружающей среде.
PRO. Видно, что банк стабильно пополняется геномами прокариот.
Задание 2
Для выполнения следующих заданий мне был выдан ген CLIC1, описанный в записи EMBL с кодом доступа BA000025.
По записи я узнал следующее:
Ген направлен так же, как выбрано для записи. Ген содержит 6 экзонов. Длина первого - 39 п.о., последнего - 162 п.о.
Длина первого интрона - 2002, последнего - 1213.
Задание 3
Я взял последовательность самого длинного экзона данного гена, чтоб найти белок, который он кодирует. Для этого на я воспользовался одной из программ пакета BLAST на сайте NCBI (http://blast.ncbi.nlm.nih.gov/). По описаниям программ я выбрал подходящую:
blastx | Search protein database using
| a translated nucleotide query
На странице программы скопировал в запрос последовательность экзона и в поле "Database" выбрал
банк Swiss-Prot.
В результате был найден белок CLIC1_HUMAN (Идентичность: 100%). Последовательность экзона с 3 по 182 п.о. соответствует последовательности белка с 129 по 188 а.о. То есть рамка считывания здесь идёт с третьего нуклеотида.
Задание 4
C помощью SRS я получил следующую информацию:
| Идентификатор записи EMBL | Тип молекулы | Класс данных | Раздел EMBL | Длина последовательности | Дата создания документа | Описание |
|---|---|---|---|---|---|---|
| AP009048 | genomic DNA | STD | PRO | 4646332 | 22-JAN-2006 | Escherichia coli str. K12 substr. W3110 DNA, complete genome. |
| M23630 | genomic DNA | STD | PRO | 1759 | 06-JUL-1989 | Esherichia coli protease VII gene, complete cds. |
| U00096 | genomic DNA | STD | PRO | 4639675 | 23-FEB-2006 | Escherichia coli str. K-12 substr. MG1655, complete genome. |
| U82598 | genomic DNA | STD | PRO | 136742 | 21-JAN-1997 | Escherichia coli genomic sequence of minutes 9 to 12. |
| X06903 | genomic DNA | STD | PRO | 2035 | 02-NOV-1988 | E. coli ompT gene for outer membrane protease |
Все записи описывают геномные ДНК кишечной палочки. Но записи AP009048 и U00096 сильно отличаются от остальных. Они описывают полные геномы разных штаммов и созданы намного позже остальных.