Банк EMBL

задание 1

a

Дата последнего 113 релиза - 18.09.12 Всего в него входит 252,106,363 записи

b

Всего 13 классов записей:
CON: Constructed sequence
EST: Expressed Sequence Tag
GRV: Genome Reviews
GSS: Genome Survey Sequence
HTC: High Throughput cDNA sequencing
HTG: High Throughput Genome sequencing
MGA: Mass Genome Annotation
PAT: Patent
SET: Project set (EMBL WGS Masters only)
STD: Standard
STS: Sequence Tagged Site
TSA: Transcriptome Shotgun Assembly
WGS: Whole Genome Shotgun
                    
Проиндексированы 7 из них, а именно(с числом записей)
GSS:Genome Sequence Scan                34,528,104
HTC:High Throughput CDNA sequencing        491,770
HTG:High Throughput Genome sequencing      152,599
PAT:Patents                             24,364,832
STD:Standard                            13,920,617
STS:Sequence Tagged Site                 1,322,570
TSA:Transcriptome Shotgun Assembly       8,085,693   
                    
не проиндексированы записи классов Genome revievs, Constructed sequences, Expressed sequence tag, Whole genome shotgun, Mass genome annotation и Project set

c

Division                                   entries  описание по русски
ENV:Environmental Samples               30,908,230  образцы из внешней среды
FUN:Fungi                                6,522,586  грибы
HUM:Human                               32,094,500  человек
INV:Invertebrates                       31,907,138  позвоночные
MAM:Other Mammals                       40,012,731  прочие млекопитающие
MUS:Mus musculus                        11,745,671  Мышь(Mus musculus)
PHG:Bacteriophage                            8,511  бактериофаги
PLN:Plants                              52,428,994  растения
PRO:Prokaryotes                          2,808,489  прокариоты
ROD:Rodents                              6,554,012  грызуны
SYN:Synthetic                            4,045,013  синтетические последовательности
TGN:Transgenic                             285,307  трансгенные
UNC:Unclassified                         8,617,225  неклассифицированные
VRL:Viruses                              1,358,528  вирусы
VRT:Other Vertebrates                   22,809,428  прочие позвоночные
                    

d

Я сравнил для этого задания изменения количества записей класса STD для человека, мыши, растений и прокариот за периоды с июня по сентябрь 2012 и 2011 годов

ссылка на файл OpenOffice calc(аналог MS Office Excel)

here would be picture but it's missed. Sorry :(
Как видно, человека стали секвенировать чуть больше, мышь - засетно меньше, растения также стали секвенировать меньше, а прокариот - немного больше

2 задание

данные гена MICB в EMBL:


Направление обратное
Всего 6 экзонов
Длина 1 кодирующего участка - 128bp, последнего(шестого) - 70bp
Длина 1 интрона - 2250bp, последнего(пятого) 7352bp

3 задание

Чтобы найти белок по нуклеотидной последовательности, необходимо воспользоваться blastx, далее поместить в окошко саму последовательность или загрузить файл, базу данных выбрать swissprot и нажать на кнопку "BLAST". Моя самая длинная кодирующая последовательность равнялась 288 нуклеотидам, с 99% совпадением (94 из 95 АА) нашелся белок MICB_HUMAN, собственно, из его гена и бралась последовательность, так что нашлось то, что искали, я брал 4 экзон, и согласно BLAST он соответствует 110-204 АА белка

4 задание

ID записи Тип молекулы Класс данных Дата внесения в банк Описание Длина последовательности
AJ223978 linear genomic DNA STD 03-FEB-1998 Bacillus subtilis 42.7kB DNA fragment from yvsA to yvqA. 42782
AL009126 circular genomic DNA STD 18-JUL-2002 Bacillus subtilis subsp. subtilis str. 168 complete genome. 4215606
Как видно, мой белок встречается в полном бактериальном геноме и в участке генома Bacillus subtillis