Банк EMBL.
задание №1. Знакомство со структурой банка EMBL посредством поисковой системы SRS.
Будем пользоваться SRS на EBI: srs.ebi.ac.uk.
a. Сведения о последнем проиндексированном в системе релизе EMBL по состоянию на 15.10.2012.
дата последнего релиза: 18-Sep-2012.
Количество записей: 82772678.
b. Посмотрим список классов ("Data Class") банка EMBL — их обозначения
и описания, а также число записей каждого класса, проиндексированных SRS для
последнего релиза EMBL.
The various classes of data in the EMBL databanks are represented by three letter codes. A summary of all the codes is shown below:
- CON: Constructed sequence (not indexed)
- EST: Expressed Sequence Tag (not indexed)
- GRV: Genome Reviews (not indexed)
- GSS: Genome Survey Sequence (34528104 entries indexed in SRS)
- HTC: High Throughput cDNA sequencing (491770 entries indexed in SRS)
- HTG: High Throughput Genome sequencing (152599 entries indexed in SRS)
- MGA: Mass Genome Annotation (not indexed)
- PAT: Patent (24364832 entries indexed in SRS)
- SET: Project set (EMBL WGS Masters only) (not indexed)
- STD: Standard (13920617 entries indexed in SRS)
- STS: Sequence Tagged Site (1322570 entries indexed in SRS)
- TSA: Transcriptome Shotgun Assembly (7992186 entries indexed in SRS)
- WGS: Whole Genome Shotgun (not indexed)
c. Список разделов ("Division") банка EMBL.
Для каждого раздела, кроме обозначения, приведем его описание по-русски и число записей в последнем релизе.
The various taxonomic divisions in the EMBL databanks are represented by three letter codes. A summary of all the codes is shown below:
- ENV: Environmental Samples (природные образцы) (7762556 записей)
- FUN: Fungi (грибы) (2402829 записей)
- HUM: Human (человек) (11304977 записей)
- INV: Invertebrates (беспозвоночные) (7398340 записей)
- MAM: Other Mammals (другие млекопитающие) (6741732 записей)
- MUS: Mus musculus (домовая мышь) (5163724 записей)
- PHG: Bacteriophage (бактериофаги) (8503 записей)
- PLN: Plants (растения) (20284404 записей)
- PRO: Prokaryotes (прокариоты) (1639517 записей)
- ROD: Rodents (грызуны) (1313761 записей)
- SYN: Synthetic (синтетические) (4045013 записей)
- TGN: Transgenic (генно модифицированные) (285306 записей)
- UNC: Unclassified (неклассифицированные) (8617170 записей)
- VRL: Viruses (вирусы) (1358516 записей)
- VRT: Other Vertebrates (другие позвоночные) (4446330 записей)
Задание 2. Описание гена в записи банка EMBL
Опишем ген NG23 из файла BA000025.embl
Направление гена: обратное (complement)
число кодирующих участков: 4
длина первого кодирующего участка: 96 (179581-179486+1)
длина последнего кодирующего участка: 114 (180962-180849+1)
длина первого интрона: 276 (179858-179581-1)
длина последнего интрона: 246 (180849-180602-1)
Проверить эти данные можно по записи из файла BA000025.embl приведенной ниже:
FT CDS complement(join(179486..179581,179858..179953,
FT 180462..180602,180849..180962))
FT /codon_start=1
FT /transl_table=1
FT /gene="NG23"
FT /note="unknown function"
FT /db_xref="GDB:11504825"
FT /db_xref="GOA:Q5SSQ6"
FT /db_xref="HGNC:13938"
FT /db_xref="UniProtKB/Swiss-Prot:Q5SSQ6"
FT /protein_id="BAB63305.1"
FT /translation="MGSQGSGGVPLVQAPYTVLLLPLGTSRQDPGAQSFFLWLRRMQAL
FT EREQDALWQGLELLQHGQAWFEDHLREAQRQQLHLGALGENFLTDLHSEPGRPPLAQIQ
FT KVNICLQNLIHEKELSRQQKGVTQPKEEMAQRGCTKGPRGPTRV"
FT exon 179486..179581
FT /gene="NG23"
FT /number=4
FT exon 179858..179953
FT /gene="NG23"
FT /number=3
FT exon 180462..180602
FT /gene="NG23"
FT /number=2
FT exon 180849..180962
FT /gene="NG23"
FT /number=1
Задание 3. Нахождение белка по фрагменту гена
Вырежем самый длинный кодирующий участок в отдельный файл,
воспользовавшись программой seqret с опцией -sask.
seqret -sask
Input (gapped) sequence(s): BA000025.embl
Begin at position [start]: 180462
End at position [end]: 180602
Reverse strand [N]: Y
output sequence(s) [ba000025.fasta]:
В результате получим файл в fasta формате: ba000025.fasta
На странице http://blast.ncbi.nlm.nih.gov/
Отыщем, как найти соответствующий данному экзону белок в Swiss-Prot.
Для этого перейдем в меню поиска, затем выберем (или оставим по умолчанию
поиск blastx) и в окно поиска вставим скопированный ранее экзон.
Выбираем поиск по Swiss-Prot и по желанию
выписываем организм (человек).
После небольшой паузы программа вероятнее
всего сделает несколько выравниваний, одно из которых будет с совпадением 100%.
В информации о последовательности (Alignment) можно найти название белка, который кодируется
данным участком гена.
Модификацией этого варианта является поиск изначально по геному человека (Human) с помощью blastx.
В остальном различий не обнаружено.
В результате выяснилось, что данный белок - APC domain-containing protein 1 или G7d .
Выравнивание показало, что из 148 а.к. остатков данного белка выбранным экзоном кодируются
основания с 39 по 85.
Задание 4. Ссылки из записи банка Swiss-Prot на записи банка EMBL
В записи Swiss-Prot (получили командами ниже),
entret
sw:ACP_BACSU
найдем все ссылки на банк EMBL. Записи будут находиться в полях DR (database cross-reference):
DR EMBL; U59433; AAC44308.1; -; Genomic_DNA.
DR EMBL; D64116; BAA10975.1; -; Genomic_DNA.
DR EMBL; AL009126; CAB13465.1; -; Genomic_DNA.
C помощью SRS запросом:
((((([embl-ID:U59433*] | [embl-ID:AAC44308.1*]) | [embl-ID:D64116*]) | [embl-ID:BAA10975.1*]) | [embl-ID:AL009126*]) | [embl-ID:CAB13465.1*])
получим информацию, необходимую для заполнения следующей таблицы (подробные указания см. на странице заданий).
ID записи |
Тип молекулы |
Класс данных |
Дата внесения в банк |
Описание |
Длина последовательности |
AL009126 |
genomic DNA |
STD |
18-JUL-2002 |
Bacillus subtilis subsp. subtilis str. 168 complete genome. |
4215606 |
D64116 |
genomic DNA |
STD |
28-MAR-1996 |
Bacillus subtilis genes for ORF1, ORF2, ORF3, ORF4 and Srb, partial and complete cds. |
6098 |
U59433 |
genomic DNA |
STD |
25-AUG-1996 |
Bacillus subtilis PlsX (plsX), malonyl-CoA:Acyl carrier protein transacylase (fabD)
and 3-ketoacyl-acyl carrier protein reductase (fabG) genes, complete cds, and acyl carrier
protein (acpP) gene, partial cds. |
2678 |
Из этих данных можно заметить, что сначала в банк данных поступили короткие последовательности
генов отдельных белков, и только в 2002 году появился полный геном бактерии.
Секвенированные молекулы всегда являлись последовательностью ДНК, класс данных - стандартный.
На страницу 3 семестра
© Aleshin Vasily