Учебный сайт Фоменко Елены

Главная Семестры Проекты Заметки

1. Знакомство со структурой банка EMBL посредством поисковой системы SRS.

a. C "Library Page" следуем по гиперссылке "EMBL (release)". Видим: "The current release (113) has 82772678 entries and was indexed 18-Sep-2012."
Т.е., дата последнего проиндексированного в системе релиза EMBL: 18.09.12, количество записей в нём: 82772678.

b. C "Library Page" следуем по гиперссылке "EMBL (release)". На открывшейся странице внизу в списке полей находим "Data Class" и следуем по соответствующей гиперссылке. Получаем:

CON: Constructed sequence
EST: Expressed Sequence Tag
GRV: Genome Reviews
GSS: Genome Survey Sequence
HTC: High Throughput cDNA sequencing
HTG: High Throughput Genome sequencing
MGA: Mass Genome Annotation
PAT: Patent
SET: Project set (EMBL WGS Masters only)
STD: Standard
STS: Sequence Tagged Site
TSA: Transcriptome Shotgun Assembly
WGS: Whole Genome Shotgun
 

Чтобы узнать число записей, нажмимаем кнопку "List values":

  gss	34528104
  htc	491770
  htg	152599
  pat	24364832
  std	13920617
  sts	1322570
  tsa	7992186
 

c. Список разделов ("Divisions") банка EMBL:

ENV: Environmental Samples (Образцы из окружающей среды)
FUN: Fungi (Грибы)
HUM: Human (Человек)
INV: Invertebrates (Беспозвоночные)
MAM: Other Mammals (Другие млекопитающие)
MUS: Mus musculus (Мыши)
PHG: Bacteriophage (Бактериофаги)
PLN: Plants (Растения)
PRO: Prokaryotes(Прокариоты)
ROD: Rodents (Грызуны)
SYN: Synthetic (Синтетические)
TGN: Transgenic (Трансгенные)
UNC: Unclassified (Неклассифицированные)
VRL: Viruses (Вирусы)
VRT: Other Vertebrates (Другие позвоночные)
 

2. Описание гена в записи банка EMBL:

1. Направление гена относительно направления, выбранного для записи - обратное;
2. Число кодирующих участков (экзонов): 6;
3. Длина первого кодирующего участка 218955..219059 : 219059-218955+1=105 п.н.;
4. Длина последнего кодирующего участка 220585..220645: 220645-220585+1=61 п.н.;
5. Длина первого интрона 219185-219059-1=125 п.н.;
6. Длина последнего интрона 220585-220390-1=194 п.н.;

FT   CDS             complement(join(218955..219059,219185..219264,
FT                   219402..219442,219797..219887,220043..220390,
FT                   220585..220645))
FT                   /codon_start=1
FT                   /transl_table=1
FT                   /gene="G6B"
FT                   /note="alternative name: NG31"
FT                   /note="unknown function"
FT                   /db_xref="GDB:11504823"
FT                   /db_xref="GOA:O95866"
FT                   /db_xref="HGNC:13937"
FT                   /db_xref="InterPro:IPR003599"
FT                   /db_xref="UniProtKB/Swiss-Prot:O95866"
FT                   /protein_id="BAB63378.1"
FT                   /translation="MAVFLQLLPLLLSRAQGNPGASLDGRPGDRVNLSCGGVSHPIRWV
FT                   WAPSFPACKGLSKGRRPILWASSSGTPTVPPLQPFVGRLRSLDSGIRRLELLLSAGDSG
FT                   TFFCKGRHEDESRTVLHVLGDRTYCKAPGPTHGSVYPQLLIPLLGAGLVLGLGALGLVW
FT                   WLHRRLPPQPIRPLPRFAPLVKTEPQRPVKEEEPKIPGDLDQEPSLLYADLDHLALSRP
FT                   RRLSTADPADASTIYAVVV"
FT   exon            218955..219059
FT                   /gene="G6B"
FT                   /number=6
FT   exon            219185..219264
FT                   /gene="G6B"
FT                   /number=5
FT   exon            219402..219442
FT                   /gene="G6B"
FT                   /number=4
FT   exon            219797..219887
FT                   /gene="G6B"
FT                   /number=3
FT   exon            220043..220390
FT                   /gene="G6B"
FT                   /number=2
FT   exon            220585..220645
FT                   /gene="G6B"
FT                   /number=1
 

3. Нахождение белка по фрагменту гена

Вырезаем самый длинный кодирующий участок (220043..220390) в отдельный файл, воспользовавшисьь программой seqret с опцией -sask.

Белковые последовательности, соответствующие полученной нуклеотидной, будем искать с помощью blastx. В поле Enter Query Sequence вводим последовательность (можно загрузить файл с ней). Выбираем в поле Database банк swissprot. Запускаем поиск - BLAST. Вот что вышло:

100% совпадение - с участком белка G6B_HUMAN:

Как видно, экзону соответствует участок 22-136 белка.

4. Ссылки из записи банка Swiss-Prot на записи банка EMBL

Получаю запись Swiss-Prot командой:
entret sw:ysdc_bacsu

В полученном файле нахожу все ссылки на банк EMBL:

DR   EMBL; Z75208; CAA99585.1; -; Genomic_DNA.
DR   EMBL; AL009126; CAB14842.1; -; Genomic_DNA.

C помощью SRS получаем нужную информацию о записях. Для этого на страничке "Library page" ставим галочку против EMBL, затем нажимаем "Standard Query Form". Поиск ведем по полю "Accession number", пользуясь логическим оператором "ИЛИ" ( | ). Чтобы получить всю нужную информацию и только ее, в окошке "Choose 1 or more fields" одновременно выбираем поля: ID, Molecule, Data class, Sequence Length, Entry Creation Date, Description. Сохраняем результаты поиска в виде таблицы ("Save").

ID записи Тип молекулы Класс данных Дата внесения в банк Описание Длина последовательности
AL009126 genomic DNA STD 18.07.2002 Bacillus subtilis subsp. subtilis str. 168 complete genome 4215606
Z75208 genomic DNA STD 08.01.1997 B.subtilis genomic sequence 89009bp 89009

Видим, что одна из записей - 1997 года - фрагмент генома бактерии, длиной только 89009, а другая - 2002 года - полная последовательность, длиной 4215606 пар.


© Фоменко Елена.