EMBL database

Задание 1.

Знакомство со структурой банка EMBL посредством поисковой системы SRS

При выполнении задания пользуемся SRS на сайте EBI: srs.ebi.ac.uk

Упражнение 1. Дата последнего проиндексированного в системе релиза EMBL и количество записей в нём.
C "Library Page" следуем по гиперссылке "EMBL (release)". Находим на открывшейся странице запись
			The current release (113) has 82772678 entries and was indexed 18-Sep-2012.
			
Итого: в последнем релизе от 18/09/2012 года 82772678 записей.

Упражнение 2. Список классов ("Data Class") банка EMBL.
The various classes of data in the EMBL databanks are represented by three letter codes. A summary of all the codes is shown below:
  • CON: Constructed sequence (not indexed)
  • EST: Expressed Sequence Tag (not indexed)
  • GRV: Genome Reviews(not indexed)
  • GSS: Genome Survey Sequence (34528104 entries indexed in SRS)
  • HTC: High Throughput cDNA sequencing (491770 entries indexed in SRS)
  • HTG: High Throughput Genome sequencing (152599 entries indexed in SRS)
  • MGA: Mass Genome Annotation (not indexed)
  • PAT: Patent (24364832 entries indexed in SRS)
  • SET: Project set (EMBL WGS Masters only) (not indexed)
  • STD: Standard (13920617 entries indexed in SRS)
  • STS: Sequence Tagged Site (1322570 entries indexed in SRS)
  • TSA: Transcriptome Shotgun Assembly (7992186 entries indexed in SRS)
  • WGS: Whole Genome Shotgun (not indexed)

Упражнение 3. Cписок разделов ("Divisions") банка EMBL.
The various taxonomic divisions in the EMBL databanks are represented by three letter codes. A summary of all the codes is shown below:
  • ENV: Природные образцы (7762556 записей)
  • FUN: Грибы (2402829 записей)
  • HUM: Человек (11304977 записей)
  • INV: Беспозовочные (7398340 записей)
  • MAM: Другие млекопитающие (6741732 записей)
  • MUS: Домовая мышь (5163724 записей)
  • PHG: Бактериофаги (8503 записей)
  • PLN: Растения (20284404 записей)
  • PRO: Прокариоты (1639517 записей)
  • ROD: Грызуны (1313761 записей)
  • SYN: Синтетические (4045013 записей)
  • TGN: Генетически модифицированные (трансгенные) (285306 записей)
  • UNC: Неклассифицированные (8617170 записей)
  • VRL: Вирусы (1358516 записей)
  • VRT: Другие позвоночные (4446330 записей)

Задание 2.

Описание гена FLOT1 в записи банка EMBL

  • направление гена относительно направления, выбранного для записи - прямое ;
  • число кодирующих участков - 12;
  • число экзонов - 13;
  • длина первого кодирующего участка 1199991..1200033 : 1200033-1199991+1=43 п.н.;
  • длина последнего кодирующего участка 1214043..1214072: 1214072-1214043+1=30 п.н.;
  • длина первого интрона 1200313-1200033-1=279 п.н.;
  • длина последнего интрона 1214043-1212166-1=1876 п.н.;

Задание 3.

Нахождение белка по фрагменту гена FLOT1

Проводим поиск по самому длинному кодирующему участку 1211088..1211269 (длина 181 п.н.).
  • Запускаем команду
     seqret -sask 
    Далее вводим необходимые параметры.
  • "input (gapped) sequence" - имя исходного файла (BA000025.embl).
  • "Begin at position [start]:" - начало вырезаемого участка.
  • "End at position [end]:" - конец вырезаемого участка.
  • "Reverse strand" - "n" - если участок на прямой цепи, "y" - если на обратной.
Получаем выходной файл ba000025.fasta.

На домашней странице BLAST запустим программу blastx, которая сравнивает вероятные продукты трансляции нуклеотидной последовательности с записями в базе данных белковых последовательностей.

В поле для ввода последовательности введём полученную последовательность кодирующего участка гена FLOT1. Выберем базу данных UniProtKB/Swiss-Prot(swissprot). БУдем вести поиск по Homo sapiens (human (taxid:9606)).

После завершения процесса поиска по последовательности кодирующего участка гена FLOT1 был найден белок: Flottilin-1 (O75955). Как видно из приведённого ниже выравнивания, искомой последовательности кодирующего участка гена соответствует участок 275-301 белка.

protein

Задание 4.

Ссылки из записи банка Swiss-Prot на записи банка EMBL

Мой белок - GUAD_BACSU (O34598). Записи в Swiss-Prot о нем можно найти командой:
entret sw:O34598
Выходной файл guad_bacsu.entret содержит следущие строки (ссылки на банк EMBL)
DR   EMBL; AJ002571; CAA05596.1; -; Genomic_DNA.
DR   EMBL; AL009126; CAB13174.1; -; Genomic_DNA.
Записи EMBL, в которых описан ген белка GUAD_BACSU (O34598) ищем через SRS следущим образом:
  • На страничке "Library page" ставим галочку против EMBL;
  • Затем нажимаем кнопку "Standard Query Form";
  • Поиск ведем по полю "Accession number", пользуясь логическим оператором "ИЛИ" (AL009126 | AJ002571)
  • Создаем один запрос, позволяющий сразу получить всю нужную информацию и только ее: в окошке "Choose 1 or more fields" выбераем поля: ID, Molecule, Data class, Sequence Length, Entry Creation Date, Description.
list

Как видно из таблицы, в EMBL две записи. Одна - это полный сиквенированный геном бактерии, а другая - фрагмент ДНК между xlyA и ykoR. Полный геном отсеквенировал позднее и размер его, естественно больше.


Наверх