Учебный сайт Фоменко Елены
Главная | Семестры | Проекты | Заметки |
1. Знакомство со структурой банка EMBL посредством поисковой системы SRS.
a. C "Library Page" следуем по гиперссылке "EMBL (release)". Видим: "The current release (113) has 82772678 entries and was indexed 18-Sep-2012."
Т.е., дата последнего проиндексированного в системе релиза EMBL: 18.09.12, количество записей в нём: 82772678.
b. C "Library Page" следуем по гиперссылке "EMBL (release)". На открывшейся странице внизу в списке полей находим "Data Class" и следуем по соответствующей гиперссылке. Получаем:
CON: Constructed sequence EST: Expressed Sequence Tag GRV: Genome Reviews GSS: Genome Survey Sequence HTC: High Throughput cDNA sequencing HTG: High Throughput Genome sequencing MGA: Mass Genome Annotation PAT: Patent SET: Project set (EMBL WGS Masters only) STD: Standard STS: Sequence Tagged Site TSA: Transcriptome Shotgun Assembly WGS: Whole Genome Shotgun
Чтобы узнать число записей, нажмимаем кнопку "List values":
gss 34528104 htc 491770 htg 152599 pat 24364832 std 13920617 sts 1322570 tsa 7992186
c. Список разделов ("Divisions") банка EMBL:
ENV: Environmental Samples (Образцы из окружающей среды) FUN: Fungi (Грибы) HUM: Human (Человек) INV: Invertebrates (Беспозвоночные) MAM: Other Mammals (Другие млекопитающие) MUS: Mus musculus (Мыши) PHG: Bacteriophage (Бактериофаги) PLN: Plants (Растения) PRO: Prokaryotes(Прокариоты) ROD: Rodents (Грызуны) SYN: Synthetic (Синтетические) TGN: Transgenic (Трансгенные) UNC: Unclassified (Неклассифицированные) VRL: Viruses (Вирусы) VRT: Other Vertebrates (Другие позвоночные)
2. Описание гена в записи банка EMBL:
1. Направление гена относительно направления, выбранного для записи - обратное;
2. Число кодирующих участков (экзонов): 6;
3. Длина первого кодирующего участка 218955..219059 : 219059-218955+1=105 п.н.;
4. Длина последнего кодирующего участка 220585..220645: 220645-220585+1=61 п.н.;
5. Длина первого интрона 219185-219059-1=125 п.н.;
6. Длина последнего интрона 220585-220390-1=194 п.н.;
FT CDS complement(join(218955..219059,219185..219264, FT 219402..219442,219797..219887,220043..220390, FT 220585..220645)) FT /codon_start=1 FT /transl_table=1 FT /gene="G6B" FT /note="alternative name: NG31" FT /note="unknown function" FT /db_xref="GDB:11504823" FT /db_xref="GOA:O95866" FT /db_xref="HGNC:13937" FT /db_xref="InterPro:IPR003599" FT /db_xref="UniProtKB/Swiss-Prot:O95866" FT /protein_id="BAB63378.1" FT /translation="MAVFLQLLPLLLSRAQGNPGASLDGRPGDRVNLSCGGVSHPIRWV FT WAPSFPACKGLSKGRRPILWASSSGTPTVPPLQPFVGRLRSLDSGIRRLELLLSAGDSG FT TFFCKGRHEDESRTVLHVLGDRTYCKAPGPTHGSVYPQLLIPLLGAGLVLGLGALGLVW FT WLHRRLPPQPIRPLPRFAPLVKTEPQRPVKEEEPKIPGDLDQEPSLLYADLDHLALSRP FT RRLSTADPADASTIYAVVV" FT exon 218955..219059 FT /gene="G6B" FT /number=6 FT exon 219185..219264 FT /gene="G6B" FT /number=5 FT exon 219402..219442 FT /gene="G6B" FT /number=4 FT exon 219797..219887 FT /gene="G6B" FT /number=3 FT exon 220043..220390 FT /gene="G6B" FT /number=2 FT exon 220585..220645 FT /gene="G6B" FT /number=1
3. Нахождение белка по фрагменту гена
Вырезаем самый длинный кодирующий участок (220043..220390) в отдельный файл, воспользовавшисьь программой seqret с опцией -sask.
Белковые последовательности, соответствующие полученной нуклеотидной, будем искать с помощью blastx. В поле Enter Query Sequence вводим последовательность (можно загрузить файл с ней). Выбираем в поле Database банк swissprot. Запускаем поиск - BLAST. Вот что вышло:
100% совпадение - с участком белка G6B_HUMAN:
Как видно, экзону соответствует участок 22-136 белка.
4. Ссылки из записи банка Swiss-Prot на записи банка EMBL
Получаю запись Swiss-Prot командой:
entret sw:ysdc_bacsu
В полученном файле нахожу все ссылки на банк EMBL:
DR EMBL; Z75208; CAA99585.1; -; Genomic_DNA. DR EMBL; AL009126; CAB14842.1; -; Genomic_DNA.
C помощью SRS получаем нужную информацию о записях. Для этого на страничке "Library page" ставим галочку против EMBL, затем нажимаем "Standard Query Form". Поиск ведем по полю "Accession number", пользуясь логическим оператором "ИЛИ" ( | ). Чтобы получить всю нужную информацию и только ее, в окошке "Choose 1 or more fields" одновременно выбираем поля: ID, Molecule, Data class, Sequence Length, Entry Creation Date, Description. Сохраняем результаты поиска в виде таблицы ("Save").
ID записи | Тип молекулы | Класс данных | Дата внесения в банк | Описание | Длина последовательности |
AL009126 | genomic DNA | STD | 18.07.2002 | Bacillus subtilis subsp. subtilis str. 168 complete genome | 4215606 |
Z75208 | genomic DNA | STD | 08.01.1997 | B.subtilis genomic sequence 89009bp | 89009 |
Видим, что одна из записей - 1997 года - фрагмент генома бактерии, длиной только 89009, а другая - 2002 года - полная последовательность, длиной 4215606 пар.