Занятие 7. Банк нуклеотидных последовательностей EMBL




  1.  Система SRS и банк EMBL.
  2. Пользуясь системой SRS (http://srs.ebi.ac.uk/):
    1. Узнал дату последнего проиндексированного в системе релиза EMBL и количество записей в нём.
      1. Дата последнего релиза:
      05.09.08
      2.Количество записей:
      92831733
    2. Посмотрел список классов ("Data Class") банка EMBL — их обозначения и описания (по-английски), а также число записей каждого класса, проиндексированных SRS для последнего релиза EMBL.
      1.Список классов банка EMBL:

      • ANN: Constructed sequence with annotation
      • CON: Constructed sequence
      • EST: Expressed Sequence Tag
      • GRV: Genome Reviews
      • GSS: Genome Survey Sequence
      • HTC: High Throughput cDNA sequencing
      • HTG: High Throughput Genome sequencing
      • MGA: Mass Genome Annotation
      • PAT: Patent
      • SET: Project set (EMBL WGS Masters only)
      • STD: Standard
      • STS: Sequence Tagged Site
      • TPA: Third Party Annotation
      • TSA: Transcriptome Shotgun Assembly
      • WGS: Whole Genome Shotgun

      2.Число записей каждого класса, проиндексированных SRS для последнего релиза EMBL:
      • est - 54868004
      • gss - 24420981
      • htc - 524114
      • htg - 135664
      • pat - 6175434
      • std - 5752704
      • sts - 945908
      • tpa - 5919
      • tsa - 3005

      Соответственно не проиндексироваными остались записи классов:
      • ann
      • con
      • grv
      • mga
      • set
      • wgs
    3. Посмотрел список разделов ("Divisions") банка EMBL. Для каждого раздела, кроме обозначения, привел его описание по-русски и число записей в последнем релизе.
      Список разделов банка EMBL: Перевод: Число записей в последнем релизе:

      • ENV: Environmental Samples
      • FUN: Fungi
      • HUM: Human
      • INV: Invertebrates
      • MAM: Other Mammals
      • MUS: Mus musculus
      • PHG: Bacteriophage
      • PLN: Plants
      • PRO: Prokaryotes
      • ROD: Rodents
      • SYN: Synthetic
      • TGN: Transgenic
      • UNC: Unclassified
      • VRL: Viruses
      • VRT: Other Vertebrates
      Образцы окружающей среды
      Грибы
      Человек
      Беспозвоночные
      Другие млекопитающие
      Мышь домовая
      Бактериофаги
      Растения
      Прокариоты
      Грызуны
      Синтетические
      Трансгенные
      Неклассифицированные
      Вирусы
      Другие позвоночные
      3614899
      2524681
      11540219
      13679938
      8686059
      7330487
      4896
      28334269
      675972
      1804253
      1500620
      265445
      2956530
      624900
      9288565

  3. Описание гена G9A из записи EMBL с кодом доступа BA000025.
  4. - Данный ген имеет прямое направление.
    - Содержит 24 кодирующих участка.
    - Длина первого экзона - 40 нуклеотидов.
    - Длина первого интрона - 91 нуклеотида.
    - Длина последнего экзона - 181 нуклеотидов.
    - Длина последнего интрона - 408 нуклеотидов.

  5. Белок, соответствующий гену G9A.

  6. Я вырезал самый длинный кодирующий участок в отдельный файл.
    И воспользовался программами seqret и blastx,чтобы найти в Swiss-Prot соответствующий этому участку белок.
    Инструкция по поиску:
    1.Выполнив на Kodomo-count команду seqret -sask, вырезать самый длинный кодирующий участок гена.
    2.На вход программе в поле "input (gapped) sequence" ввести BA000025.embl.
    3.В поле "Begin at position [start]: " и "End at position [end]:" ввести
    координаты кодирующего участка (в нашем упражнении координаты самого длинного
    участка. Мой случай - 55560 и 55795).
    4.На запрос "Reverse strand" ввести N или Y(N если направление гена прямое, Y если обратное см. п2).
    5.Получить файл (у меня файл ba000025.embl).
    6.Воспользоваться пакетом blastx(на сайте http://blast.ncbi.nlm.nih.gov/).
    7.Подать на вход программе полученный в 5 пункте файл и задать поиск по Swiss-Prot.

    Первый найденный с помощью blastx белок: Q96KQ7(HUMAN)
    Моему экзону соответствует участок белка : 504-581.

  7. Таблица записей EMBL.
  8. В записи Swiss-Prot, описывающей мой белок(P08179), нашел все ссылки на банк EMBL.

    - Эти ссылки указаны в поле DR записи моего белка.

    C помощью SRS получил информацию, для следующей таблицы.

    Идентификатор записи EMBL Тип молекулы Класс данных Раздел EMBL Дата создания
    документа
    Описание Длина последовательности
    U00096 genomic DNA STD PRO 23-FEB-2006 Escherichia coli str. K-12
    substr. MG1655, complete
    genome.
    4639675
    M13747 genomic DNA STD PRO 02-APR-1988 E.coli purM gene encoding 5'-
    phosphoribosyl-5-
    aminoimidazole synthetase,
    and purN gene, complete cds.
    2899
    AF293167 genomic DNA STD PRO 19-SEP-2000 Escherichia coli isolate ECOR7 phosphoribosylaminoimidazole
    synthetase (purM) and
    phosphoribosylglycinamide
    formyltransferase 1 (purN)
    genes, complete cds.
    2101
    AP009048 genomic DNA STD PRO 22-JAN-2006 Escherichia coli W3110 DNA,
    complete genome.
    4646332

Краткое резюме:
1.Все записи:
- описывают молекулу ДНК из E.coli
- относятся к классу данных: Standard
- кроме второй созданы относительно недавно

Главная страница
©Голяев Виктор