Занятие 5. "Банк EMBL"



Задание 1. Знакомство со структурой банка EMBL посредством поисковой системы SRS

  1. Дата последнего проиндексированного в системе релиза EMBL: 8 сентября 2011. Количество записей: 71833235.
  2. Список классов ("Data Class") банка EMBL:
    • CON: Constructed sequence
    • EST: Expressed Sequence Tag
    • GRV: Genome Reviews
    • GSS: Genome Survey Sequence - 32578894
    • HTC: High Throughput cDNA sequencing - 533398
    • HTG: High Throughput Genome sequencing - 145701
    • MGA: Mass Genome Annotation
    • PAT: Patent - 22346593
    • SET: Project set (EMBL WGS Masters only)
    • STD: Standard - 11737741
    • STS: Sequence Tagged Site - 1322285
    • TSA: Transcriptome Shotgun Assembly - 3168623
    • WGS: Whole Genome Shotgun

    Не проиндексированы в SRS записи следующих классов: CON, EST, GRV, MGA, SET, WGS (хотя данный банк не содержит записи из классов CON и WGS основного резила EMBL, поэтому число записей в них должно равняться нулю).

  3. Список разделов ("Divisions") банка EMBL:
    • ENVb>: Environmental Samples (образцы из окружающей среды, выращивать которых нет цели и полную таксономию которых невозможно определить) - 6637887
    • FUN: Грибы - 2219095
    • HUM: Человек - 10687844
    • INV: Беспозвоночные - 5906093
    • MAM: Другие млекопитающие - 5765536
    • MUS: Домовая мышь - 4779883
    • PHG: Бактериофаги - 8082
    • PLN: Растения - 17132180
    • PRO: Прокариоты - 1467025
    • ROD: Грызуны - 1265394
    • SYN: Синтетические конструкции - 3632878
    • TGN: Трансгенные (генетически модифицированные) организмы - 265545
    • UNC: Неклассифицированные (не отнесенные к другим таксономическим разделам) записи - 7500493
    • VRL: Вирусы - 1177936
    • VRT: Другие позвоночные - 3387364

    Задание 2. Описание гена HLA-G в записи банка EMBL


    Haправление обратное.
    Число кодирующих участков: 6
    Длина первого из них: 73
    Последнего: 5
    Длина 1-го интрона: 129
    Последнего: 445

    Задание 3. Нахождение белка по фрагменту гена

    При помощи seqret был вырезан участок , в файл HLA_G.fasta Чтобы найти соответствующий белок, я выбрала программу BLASTX. На вход программе - получившуюся fasta-последовательность, выполнить поиск по Swiss-Prot. Один из найденных белков - подходящий - P17693 (HLAG_HUMAN)(HLA class I histocompatibility antigen, alpha chain G), на позициях 208-298 ао.

    Задание 4. Ссылки из записи Endoa_bacsu банка Swiss-Prot на записи банка EMBL

    Ссылки: AB001488; BAA19303.1; AL009126; CAB12273.1;
    ID записи Тип молекулы Класс данных Дата внесения в банк Описание Длина п-ти
    EMBL:AB001488 genomic DNA STD 13-MAR-1997 Bacillus subtilis genome sequence, 148 kb sequence of the region between 35 and 47 degree. > 148068
    EMBL:AL009126 genomic DNA STD 18-JUL-2002 Bacillus subtilis subsp. subtilis str. 168 complete genome. 4215606

    Запись от 2002 года соответствует полному геному Bacillus subtilis, а от 1997 года участку бактериальной хромосомы, содержащему искомую последовательность. Последовательности имеют разную длину, были секвенированы в разное время (чем ближе к настоящему времени, тем последовательность длиннее, что связано с появлением новых, улучшенных технологий секвенирования.


© SHADRINA О. А. 2010