Учебный сайт Смирновой Виктории

Главная Проекты Семестры


Программы пакета BLAST для работы с нуклеотидными последовательностями


  1. Поиск в геноме участков, кодирующих белки, похожие на заданный
  2. С помощью seqret из БД SwissProt была извлечена аминокислотная последовательность моего белка из Escherichia coli K-12. Нужно определить, закодированы ли похожие белки в геноме другого организма, не пользуясь аннотацией генома.

    Программой formatdb были созданы индексные файлы пакета BLAST для поиска по заданному геному Pasteurella multocida.

    С помощью TBLASTN был проведен поиск белка по заданному геному с порогом на E-value 0,001 (Результат).

    Поиск гомологов белка gluq_ecoli в геноме Pasteurella multocida

    Число находок с Е-value<0,001 2
    Характеристика лучшей находки:  
       E-value находки 2e-38
    Название геномной последовательности Pasteurella multocida subsp. multocida str. Pm70 section 119 of 204 of the complete genome.
    Координаты выравнивания(-ий) в найденной последовательности 10074-9193

  3. Нахождение записи EMBL по последовательности с помощью программы BLASTN
  4. С помощью seqret была получена последовательность того участка генома, который был найден в предыдущем упражнении как лучший. Поиск на сайте EBI (http://www.ebi.ac.uk/Tools/) позволил определить AC (AE004439; AE004439) записи нынешнего релиза EMBL, в которую попадает найденная в предыдущем упражнении последовательность гена гомолога вашего белка, были также определены координаты этого гена согласно аннотации EMBL (1312885-1313766).
    Участок является частью аннотированной кодирующей последовательности (CDS) с координатами 1312375-1313817.
    информация о соответствующем участке в поле FT:
    FT   CDS             complement(1312375..1313817)
    FT                   /codon_start=1
    FT                   /transl_table=11
    FT                   /gene="gltX_2"
    FT                   /locus_tag="PM1115"
    FT                   /product="GltX"
    FT                   /db_xref="GOA:P57906"
    FT                   /db_xref="HSSP:1NYL"
    FT                   /db_xref="InterPro:IPR014729"
    FT                   /db_xref="UniProtKB/Swiss-Prot:P57906"
    FT                   /protein_id="AAK03199.1"
    FT                   /translation="MKAEALFDLDPGVKVRTRFAPSPTGYLHVGGARTALYSWLYAKHH
    FT                   QGEFVLRIEDTDLERSTPEATAAILEGMAWLNLAWEHGPYFQTKRFDRYNQVIDQMIEQ
    FT                   GLAYRCYCSKERLEDLRNTQEQNKQKPRYDRHCLGDHKHSPEQPHVVRFKNPTEGSVVF
    FT                   EDAVRGRIEISNAELDDLIIRRTDGSPTYNFCVVVDDWDMGITHVVRGEDHINNTPRQI
    FT                   NILKALGAPIPTYAHVSMILGDDGQKLSKRHGAVSVMQYRDDGYLPEALLNYLVRLGWG
    FT                   HGDQEIFSVEEMIKLFELESVSKSASAFNTEKLLWLNHHYIRELPAEYVAKHLAWHYQD
    FT                   QGIDTSNGPALEDIVKMLAERCKTLKEMAAASRYFFEDFDSFDEAAVKKHFKVAAIEPL
    FT                   EKVKEKLTALDSWDLHSTHQAIEQTAAELELGMGKVGMPLRVAVTGSGQSPSMDVTLVG
    FT                   IGKARTLVRIQKAIDFIKSQNV"
    
     	
    Указаны координаты CDS, содержащего наш участок (расположен на комплементарной цепи), название гена, идентификаторы продукта в различных БД (в UniProt: P57906), АК последовательность белка.

  5. Поиск гомологов с помощью программы BLASTN
  6. Из записи EMBL U0009 посредством seqret была получена последовательность, кодирующая мой белок.

    Был проведен поиск гомологов этого гена в том же геноме, что в упражнении 1, но программой BLASTN. (Результат)
    Число находок с Е-value<0,001 0
    Число находок с Е-value<10 17
    Характеристика лучшей находки:  
       E-value находки 1.6
    Название геномной последовательности Pasteurella multocida subsp. multocida str. Pm70 section 170 of 204 of the complete genome
    Координаты выравнивания(-ий) в найденной последовательности 1050-1064
    В отличие от поиска с помощью TBLASTN, были найдены участки, идентичные к различным коротким (14-15 нуклеотидов) генам. За счет маленькой длины E-value получились гораздо больше, чем в первом поиске.

  7. Работа с программой getorf пакета EMBOSS
  8. Командой seqret embl:D89965 был создан файл с записью D89965 банка EMBL.

    Команда getorf d89965.entret -table 11 -minsize 30 -find 1 -outseq d89965_orf.fasta запустила программу getorf так, что был получен набор трансляций всех открытых рамок данной последовательности длиной более 30 нуклеотидов, считая открытой рамкой последовательность триплетов, начинающуюся со старт-кодона и заканчивающуюся стоп-кодоном, при использовании бактериального кода (Результат).

    CDS из документа EMBL:
    MALMHFQFTFKQFEQRKSIRSTARKARDDFVVVQTADLFHVAFHYFTGIAQRGLTI
    TSDDHMAVTAYAYYSCHELTPWLRIQSTNPVQKYGA

    Рамка, содержащая большую часть CDS из документа:
    >D89965_5 [19 - 432] Rattus norvegicus mRNA for RSS, complete cds. MVFWLHHVTVTGDDKRCSFIRDCQQCFKFAQHAIGTPVFCQLNGGFDQMALMHFQFTFKQ
    FEQRKSIRSTARKARDDFVVVQTADLFHVAFHYGIAQRGLTITSDDHMAVTAYAYYSCHE



    Последовательность из записи Swiss-Prot, на которую ссылается данная запись EMBL:
    >sp|P0A7B8|HSLV_ECOLI ATP-dependent protease hslV OS=Escherichia coli (strain K12) GN=hslV PE=1 SV=2
    MTTIVSVRRNGHVVIAGDGQATLGNTVMKGNVKKVRRLYNDKVIAGFAGGTADAFTLFEL
    FERKLEMHQGHLVKAAVELAKDWRTDRMLRKLEALLAVADETASLIITGNGDVVQPENDL
    IAIGSGGPYAQAAARALLENTELSAREIAEKALDIAGDICIYTNHFHTIEELSYKA

    Рамка, соответствующая большей части этой записи:
    >D89965_13 [375 - 1] (REVERSE SENSE) Rattus norvegicus mRNA for RSS, complete cds. MTTIVSVRRNGHVVIAGDGQATLGNTVMKGNVKKVRRLYNDKVIAGFAGGTADAFTLFEL
    FERKLEMHQGHLVKAAVELAKDWRTDRMLRKLEALLAVADETASLIITGNGDVVQPENDL
    IAIGS

  9. Поиск некодирующих последовательностей программой BLASTN


  10. Отчет по остальным заданиям в формате Word.



© Smirnova Victoriya, 2009