8 (926) 907 94 08 Здесь должен быть мальчик с мензуркой!
Всё на свете является чудом!

 

Банк EMBL

Задание 1. Знакомство со структурой банка EMBL посредством поисковой системы SRS

a)
Для получения информации последовательно переходим по ссылкам: "Library page" → "EMBL (Release)".
    В итоге получаем:



То есть текущий релиз EMBL (имеет номер 113) последний раз был проиндексирован в SRS
18 сентября 2012 года
и содержит 82772678 записей.


b) Перейдя по ссылке "Data class" и щёлкнув по кнопке "List values", мы получаем список классов банка EMBL:

Notation of class

Description of class

Number of entries

CON:

Constructed sequence

-

EST:

Expressed Sequence Tag

-

GRV:

Genome Reviews

-

GSS:

Genome Survey Sequence

34528104

HTC:

High Throughput cDNA sequencing

491770

HTG:

High Throughput Genome sequencing

152599

MGA:

Mass Genome Annotation

-

PAT:

Patent

-

SET:

Project set (EMBL WGS Masters only)

-

STD:

Standard

13920617

STS:

Sequence Tagged Site

1322570

TSA:

Transcriptome Shotgun Assembly

7992186

WGS:

Whole Genome Shotgun

-


  -   → не проиндексированные классы (CON, EST, GRV, MGA, PAT, SET, WGS)
  -   → проиндексированные классы

c) Теперь возвращаемся на страницу "EMBL (Release)" и переходим по ссылке "Divisions", после чего снова нажимаем на кнопку "List values", но теперь уже получаем список разделов банка EMBL:

Notation of chapter

Description of chapter

Number of entries

ENV:

Environmental Samples (Пробы окружающей среды)

7762556

FUN:

Fungi (Грибы)

2402829

HUM:

Human (Человек)

11304977

INV:

Invertebrates (Беспозвоночные)

7398340

MAM:

Other Mammals (Другие млекопитающие)

6741732

MUS:

Mus musculus (Домовая мышь)

5163724

PHG:

Bacteriophage (Бактериофаг)

8503

PLN:

Plants (Растения)

20284404

PRO:

Prokaryotes (Прокариоты)

1639517

ROD:

Rodents (Грызуны)

1313761

SYN:

Synthetic (Синтетические)

4045013

TGN:

Transgenic (Трансгенные)

285306

UNC:

Unclassified (Неклассифицированные)

8617170

VRL:

Viruses (Вирусы)

1358516

VRT:

Other Vertebrates (Другие позвоночные)

4446330


d*) Для оценки зависимости поступлений в разделы банка EMBL, мы выбрали 4 раздела:

  
   1 → FUN: Fungi (Грибы)
   2 → HUM: Human (Человек)
   3 → PLN: Plants (Растения)
   4 → VRL: Viruses (Вирусы)



Поиск проводится через Extended Query Form (предварительно на "Library Page" отмечаем "EMBL (Release)"). Делаем два поиска, с выбранным Data Class "STD" и написанными вначале разделами (FUN, HUM, PLN и VRL). Отличие поисковых запросов лишь в годах новых поступлений, а именно - в поле "Entry Creation Date" дата первого поиска от 1 января до 30 марта 2011 года, а второго поиска тоже от 1 января до 30 марта, но уже 2012 года.

Полученные результаты представим в виде столбчатой диаграммы (гистограммы):



На ней жёлтым цветом отмечено ежегодное увеличение поступлений.
Исключение составляет только раздел вирусов, у которого в 2012 году мы видим, наоборот, замедление поступлений. Это может быть обусловлено как потерей интереса учёных непосредственно к вирусам, так и ростом заинтересованности к другим разделам.

Но в целом положительная динимика сохраняется, так как если проанализировать абсолютно все предложенные сайтом
SRS разделы, то за год разница поступлений в период с 1 января до 30 марта составила почти 340000 (663969 поступлений в 2011 году против 1003923 в 2012-м)

Задание 2. Описание гена в записи банка EMBL

В таблице взяли заданный ген HLA-G (из записи EMBL BA000025), после чего получили информацию о нём:

○ направление гена относительно направления, выбранного для записи → обратное (комплементарная цепь)
○ число кодирующих участков → 6
○ длина первого кодирующего участка → 73
○ длина последнего кодирующего участка → 5
○ длина первого интрона между кодирующими участками → 129
○ длина последнего интрона между кодирующими участками → 445.


Задание 3. Нахождение белка по фрагменту гена

1. Самый длинный кодирующий участок гена HLA-G (это позиции 2111597..2111872) был вырезан в отдельный файл программой 
seqret с опцией -sask, позволяющей вводить номера начальной и конечной последовательности, указанные в записи EMBL.
2. На главной странице Blast была выбрана программа 
blastx, которая ищет в белковых базах данных по данной нуклеотидной последовательности.
3. На вход программы была подана полученная программой 
seqret fasta-последовательность гена.
4. В параметрах поиска была выбрана база данных Swissprot, а в поле "organism" введено "human".

В результате было найдено два белка с наименьшим значением E-value (3e-13):

1 → HLAG_HUMAN - человеческий антиген гистосовместимости класса I (участок 116-206)
2 → HLAG_PANTR -  белок обыкновенного шимпанзе, выполняющий такую же функцию (участок тоже 116-206)

Искомый белок - HLAG_HUMAN, поскольку в этом случае идентичность 100% (с белком шимпанзе идентичность 98%, совпало 90 из 91 позиций). Поскольку нуклеотидная последовательность была выделена из человеческого гена, ясно, что искомый белок принадлежит человеку.

Задание 4. Ссылки из записи банка Swiss-Prot на записи банка EMBL

Чтобы найти все ссылки на банк EMBL из записи Swiss-Prot о белке O31617 (RESA_BACSU), необходимо сначала командой
entret ($ entret sw:O31617 -auto) получить запись о белке. В этом файле находим раздел DR, где выбираем все AC записей о белке из EMBL. AC оказывается только один (AL009126).

После чего мы следуем на сайт SRS, где в поле "Accession number" вносим найденное AC нашего белка, а в окно "Choose 1 or more fields" → "ID", "Molecule", "Data class", "Sequence Length", "Entry Creation Date", "Description".

Следующим шагом, сохраняю всё в формате
txt в виде таблицы и разделяю табуляцией, после чего получается вот такая таблица:

ID записи

Тип молекулы

Класс данных

Длина последовательности

Дата внесения в банк

Описание

AL009126

genomic DNA

STD

4215606

18-JUL-2002

Bacillus subtilis subsp. subtilis str. 168 complete genome.


Мы видим, что у нас всего одна запись, представляющая собой полный геном сенной палочки (Bacillus subtilis, complete genome) и сравнивать её характеристики попросту не с чем, но некоторые общие вещи хотелось бы отметить → тип молекулы во всех базах белков - геномная ДНК (genomic DNA), как правило; а класс данных - стандартный (STD).
Главная
Об авторе
Учебные семестры
Проекты автора
Друзья
Ссылки партнеров
Extra
Контакты


Главная Об авторе Учебные семестры Проекты автора Друзья Ссылки партнеров Extra Контакты

Mneff © 2011-2012