Банк EMBL

Задание 1. Знакомство со структурой банка EMBL посредством поисковой системы SRS.
а) Дата последнего проиндексированного в системе релиза EMBL: 8 сентября 2011 года. Число записей в нем - 71833235.

b)Список классов банка EMBL:
CON Constructed sequence не проиндексирован
EST Expressed Sequence Tag не проиндексирован
GRV Genome Reviews не проиндексирован
GSS Genome Survey Sequence 32578894
HTC High Throughput cDNA sequencing 533398
HTG High Throughput Genome sequencing 145701
MGA Mass Genome Annotation не проиндексирован
PAT Patent 22346593
SET Project set (EMBL WGS Masters only) не проиндексирован
STD Standard 11737741
STS Sequence Tagged Site 1322285
TSA Transcriptome Shotgun Assembly 3168623
WGS Whole Genome Shotgun не проиндексирован


c)Cписок разделов ("Divisions") банка EMBL
ENV Environmental Samples Образцы из окружающей среды 6637887
FUN Fungi Грибы 2219095
HUM Human Человек 10687844
INV Invertebrates Беспозвоночные 5906093
MAM Other Mammals Другие млекопитающие(кроме человека и мыши) 5765536
MUS Mus musculus Мышь домовая 4779883
PHG Bacteriophage Бактериофаги 8082
PLN Plants Растения 17132180
PRO Prokaryotes Прокариоты 1467025
ROD Rodents Грызуны 1265394
SYN Synthetic Искуственные 3632878
TGN Transgenic Трансгенные 265545
UNC Unclassified Неклассифицированные организмы 7500493
VRL Viruses Вирусы 1177936
VRT Other Vertebrates Другие позвоночные 3387364


d*-дополнительное

Я выбрала три раздела банка EMBL (PRO, VRT, VRL) и определила, сколько стандартных (класса STD) записей появилось в каждом из этих разделов за период с 26 февраля 2010 года по 27 мая 2010 и за тот же период 2011 года. В этом случае я использовала статистику релизов, которую нашла, пройдя по ссылке EMBL data notes на странице EMBL release. Результаты представлены ниже, в виде столбчатой диаграммы.


Если же сделать запрос обычным способом, через Query Form, (с 1-го января по 31-е марта включительно) то результаты получаются следующие:


Из диаграмм видно, что скорость поступления записей в разделы прокариот и позвоночных растет, а для вирусов она снизилась.



Задание 2. Описание гена DDR в записи банка EMBL

Ген находится в комплементарной цепи, следовательно его направление - обратное.
Число кодирующих участков: 17
Длина первого кодирующего участка: 141
Длина последнего кодирующего участка: 85
Длина первого интрона: 118
Длина последнего интрона: 93


Задание 3. Нахождение белка по фрагменту гена.

Самый длинный кодирующий участок (1049547..1049793) был выделен в отдельный файл с помощью kodomo-count. Я запустила команду seqret -sask. После этого в ответ на запросы программы ввела имя входного файла (BA000025.embl), стартовую позицию вырезаемого участка, его конечную позицию. Далее нужно ввести "n", если цепь, на которой лежит участок, прямая, и "y", если обратная, а также название выходного файла.
Затем перейти по ссылке http://blast.ncbi.nlm.nih.gov/, выбрать пограмму blastх, которая по заданной нуклеотидной последовательности ищет последовательность белка; в поле "Enter Query Sequence" ввести вырезанную последовательность (или, например, загрузить fasta-файл с локального компьютера); в поле "database" выбрать банк SwissProt и нажать "BLAST".

Результаты поиска: Были получены последовательности с процентами идентичности 90%,91%, а также два результата с процентом идентичности 100%, и одинаковыми низкими значениями E-value=1e-52. При этом второй из этих двух белков оказался именно тем, что описан в файле BA000025.embl - Q08345 (Домен-содержащий рецептор 1 дисковидного эпителия) (/db_xref="UniProtKB/Swiss-Prot:Q08345"). Участок этого белка с 285 по 366 остаток соответствует моему экзону.

Задание 4. Ссылки из записи банка Swiss-Prot на записи банка EMBL.









E-mail: yan1303@yandex.ru
Официальный сайт ФББ
Ваши предложения :)))
Проекты
Главная страница



©Шарапова Яна