EMBL

Главная

Назад

  Дата последнего проиндексированного в системе релиза EMBL 7.09.2009
  Число записей 108577013

 
         Классы

                          Обозначение            Описание                      число записей, проиндексированных SRS
                             •ANN:        Constructed sequence with annotation        - - -
                             •CON:        Constructed sequence                        - - -
                             •EST:        Expressed Sequence Tag                     62846990
                             •GRV:        Genome Reviews                              - - - 
                             •GSS:        Genome Survey Sequence                     25905073
                             •HTC:        High Throughput cDNA sequencing            549753
                             •HTG:        High Throughput Genome sequencing          142473
                             •MGA:        Mass Genome Annotation                      - - -
                             •PAT:        Patent                                     10439165
                             •SET:        Project set (EMBL WGS Masters only)         - - -
                             •STD:        Standard                                   7253026
                             •STS:        Sequence Tagged Site                       1310171
                             •TPA:        Third Party Annotation                     6520
                             •TSA:        Transcriptome Shotgun Assembly             123842
                             •WGS:        Whole Genome Shotgun                        - - -


         Разделы

                             •ENV:        природные образцы                          4145029
                             •FUN:        грибы                                      3942084
                             •HUM:        человек                                    12841544
                             •INV:        беспозвоночные                             15518735
                             •MAM:        другие млекопитающие                       9429823
                             •MUS:        домовая мышь                               7424621
                             •PHG:        бактериофаги                               5865
                             •PLN:        растения                                   33806044
                             •PRO:        прокариоты                                 909986
                             •ROD:        грызуны                                    2261678
                             •SYN:        искусственные                              2671622
                             •TGN:        трансгенные                                265465
                             •UNC:        неклассифицированные                       3945859
                             •VRL:        вирусы                                     827405
                             •VRT:        другие позвоночные                         10581253

Описание гена TFIIH
Выбран ген TFIIH, кодирующий транскрипционный фактор II H 
              Направление гена относительно направления,                      обратное
              выбранного для записи                       
              Число кодирующих участков                                       13 (есть нетранслируемые участки)
              Длина первого кодирующего участка                               173
              Длина последнего кодирующего участка                            137
              Длина первого интрона между кодирующими участками               425
              Длина последнего интрона между кодирующими участками            263

Данные результаты представлены для комплементарной последовательности,
если считать для прямого направления, то длины первых и последних интронов и экзонов следует поменять местами. 
Самый длинный кодирующий участок
Воспользуемся программой seqret –sask 
                seqret -sask
                Reads and writes (returns) sequences
                Input (gapped) sequence(s): BA000025.embl
                Begin at position [start]: 1028111
                End at position [end]: 1028283
                Reverse strand [N]: y (ген на комплементарной цепи)
                output sequence(s) [ba000025.fasta]: tfiih.fasta
Получили файл tfiih.fasta с последовательностью самым длинным кодирующим участком (1028111 … 1028283).

Поиск в Swiss-Prot белка, содержащего экзон

На сайте http://blast.ncbi.nlm.nih.gov для того, чтобы найти в Swiss-Prot соответствующий белок, подаем эту последовательность на вход программе blastx,
которая ищет белки по заданной нуклеотидной последовательности.
Для этого выбираем blastx, загружаем полученный ранее файл tfiih.fasta в поле upload file, в database выбираем Swiss-Prot.
Пытаемся совершить поиск, но пока не была снята галочка в параметрах в поле Filters and Masking – Filter, поиск результатов не давал.
Эта функция введена для того, чтобы маскировать фрагменты последовательности с низким коэффициентом сложности.
Полученные результаты(приведены для E-value < 0.002):

sp|O70422.1|TF2H4_MOUSE  RecName: Full=General transcription f...   114     2e-25  
sp|Q92759.1|TF2H4_HUMAN  RecName: Full=General transcription f...   114     2e-25  
sp|Q6BZX4.1|TFB2_YARLI   RecName: Full=RNA polymerase II transc...  42.4    8e-04

Всего было обнаружено 29 белков.
В BA000025.embl ген TFIIH относится к TF2H4_HUMAN.
В этом белке исходный экзон соответствует участку 407-462 белка.
В белке TF2H4_MOUSE – участок 408-463.

Данные из банка EMBL по белку PSTS_ECOLI

Идентификатор записи EMBL Тип молекулы Класс данных Раздел EMBL Дата создания
документа
Описание Длина последовательности
AP009048 genomic DNA STD PRO 22-JAN-2006 Escherichia coli str. K12 substr. W3110 DNA, complete genome. 4646332
K01992 genomic DNA STD PRO 13-JUN-1985 E.coli phosphate-repressible periplasmic phosphate-binding protein (phoS), peripheral membrane proteins (pstC, pstB and phoU) and integral membrane protein (pstA) genes, complete cds. 5032
L10328 genomic DNA STD PRO 19-MAY-1993 E. coli; the region from 81.5 to 84.5 minutes. 136254
U00096 genomic DNA; STD PRO 23-FEB-2006 Escherichia coli str. K-12 substr. MG1655, complete genome. 4639675

Данные записи содержат информацию о прокариотах, тип молекулы у всех - геномная ДНК, все относятся к классу стандартные. Две записи содержат полный геном E.coli K-12, обе были созданы в 2006 году, две другие созданы достаточно давно, но их модификация производилась в 2005 году.






© Ксения Лежнина 2008