Банк EMBL.


задание №1. Знакомство со структурой банка EMBL посредством поисковой системы SRS.


Будем пользоваться SRS на EBI: srs.ebi.ac.uk.

a. Сведения о последнем проиндексированном в системе релизе EMBL по состоянию на 15.10.2012.
дата последнего релиза: 18-Sep-2012.
Количество записей: 82772678.

b. Посмотрим список классов ("Data Class") банка EMBL — их обозначения и описания, а также число записей каждого класса, проиндексированных SRS для последнего релиза EMBL. The various classes of data in the EMBL databanks are represented by three letter codes. A summary of all the codes is shown below:



c. Список разделов ("Division") банка EMBL.
Для каждого раздела, кроме обозначения, приведем его описание по-русски и число записей в последнем релизе.

The various taxonomic divisions in the EMBL databanks are represented by three letter codes. A summary of all the codes is shown below:

Задание 2. Описание гена в записи банка EMBL


Опишем ген NG23 из файла BA000025.embl

Направление гена: обратное (complement)
число кодирующих участков: 4
длина первого кодирующего участка: 96 (179581-179486+1)
длина последнего кодирующего участка: 114 (180962-180849+1)
длина первого интрона: 276 (179858-179581-1)
длина последнего интрона: 246 (180849-180602-1)

Проверить эти данные можно по записи из файла BA000025.embl приведенной ниже:

     FT   CDS             complement(join(179486..179581,179858..179953,             
     FT                   180462..180602,180849..180962))                            
     FT                   /codon_start=1                                             
     FT                   /transl_table=1                                            
     FT                   /gene="NG23"                                               
     FT                   /note="unknown function"                                   
     FT                   /db_xref="GDB:11504825"                                    
     FT                   /db_xref="GOA:Q5SSQ6"                                      
     FT                   /db_xref="HGNC:13938"                                      
     FT                   /db_xref="UniProtKB/Swiss-Prot:Q5SSQ6"                     
     FT                   /protein_id="BAB63305.1"                                   
     FT                   /translation="MGSQGSGGVPLVQAPYTVLLLPLGTSRQDPGAQSFFLWLRRMQAL
     FT                   EREQDALWQGLELLQHGQAWFEDHLREAQRQQLHLGALGENFLTDLHSEPGRPPLAQIQ
     FT                   KVNICLQNLIHEKELSRQQKGVTQPKEEMAQRGCTKGPRGPTRV"              
     FT   exon            179486..179581                                             
     FT                   /gene="NG23"                                               
     FT                   /number=4                                                  
     FT   exon            179858..179953                                             
     FT                   /gene="NG23"                                               
     FT                   /number=3                                                  
     FT   exon            180462..180602                                             
     FT                   /gene="NG23"                                               
     FT                   /number=2                                                  
     FT   exon            180849..180962                                             
     FT                   /gene="NG23"                                               
     FT                   /number=1                                                 

Задание 3. Нахождение белка по фрагменту гена



Вырежем самый длинный кодирующий участок в отдельный файл, воспользовавшись программой seqret с опцией -sask.

                                     seqret -sask 
         Input (gapped) sequence(s): BA000025.embl
          Begin at position [start]: 180462       
              End at position [end]: 180602       
                 Reverse strand [N]: Y            
output sequence(s) [ba000025.fasta]:              
В результате получим файл в fasta формате: ba000025.fasta

На странице http://blast.ncbi.nlm.nih.gov/ Отыщем, как найти соответствующий данному экзону белок в Swiss-Prot.

Для этого перейдем в меню поиска, затем выберем (или оставим по умолчанию поиск blastx) и в окно поиска вставим скопированный ранее экзон.
Выбираем поиск по Swiss-Prot и по желанию выписываем организм (человек).
После небольшой паузы программа вероятнее всего сделает несколько выравниваний, одно из которых будет с совпадением 100%.
В информации о последовательности (Alignment) можно найти название белка, который кодируется данным участком гена.

Модификацией этого варианта является поиск изначально по геному человека (Human) с помощью blastx. В остальном различий не обнаружено.

В результате выяснилось, что данный белок - APC domain-containing protein 1 или G7d .

Выравнивание показало, что из 148 а.к. остатков данного белка выбранным экзоном кодируются основания с 39 по 85.


Задание 4. Ссылки из записи банка Swiss-Prot на записи банка EMBL


В записи Swiss-Prot (получили командами ниже),
entret
sw:ACP_BACSU
найдем все ссылки на банк EMBL. Записи будут находиться в полях DR (database cross-reference):

DR   EMBL; U59433; AAC44308.1; -; Genomic_DNA.  
DR   EMBL; D64116; BAA10975.1; -; Genomic_DNA.  
DR   EMBL; AL009126; CAB13465.1; -; Genomic_DNA.

C помощью SRS запросом:

((((([embl-ID:U59433*] | [embl-ID:AAC44308.1*]) | [embl-ID:D64116*]) | [embl-ID:BAA10975.1*]) | [embl-ID:AL009126*]) | [embl-ID:CAB13465.1*])
получим информацию, необходимую для заполнения следующей таблицы (подробные указания см. на странице заданий).

ID записи Тип молекулы Класс данных Дата внесения в банк Описание Длина последовательности
AL009126 genomic DNA STD 18-JUL-2002 Bacillus subtilis subsp. subtilis str. 168 complete genome. 4215606
D64116 genomic DNA STD 28-MAR-1996 Bacillus subtilis genes for ORF1, ORF2, ORF3, ORF4 and Srb, partial and complete cds. 6098
U59433 genomic DNA STD 25-AUG-1996 Bacillus subtilis PlsX (plsX), malonyl-CoA:Acyl carrier protein transacylase (fabD) and 3-ketoacyl-acyl carrier protein reductase (fabG) genes, complete cds, and acyl carrier protein (acpP) gene, partial cds. 2678


Из этих данных можно заметить, что сначала в банк данных поступили короткие последовательности генов отдельных белков, и только в 2002 году появился полный геном бактерии.

Секвенированные молекулы всегда являлись последовательностью ДНК, класс данных - стандартный.





На страницу 3 семестра


© Aleshin Vasily