Программы пакета BLAST для работы с нуклеотидными последовательностями

  1. Поиск в геноме участков, кодирующих белки, похожие на заданный
  2. Я знаю аминокислотную последовательность моего белка IHFB_ECOLI p0a6y1.fasta. Нужно определить, закодированы ли похожие белки в геноме другого организма (Xanthomonas campestris), не пользуясь аннотацией генома. Я создал в своей рабочей директории индексные файлы пакета BLAST для поиска по заданному геному. Для поиска гомологов моего белка выбрал программу tblastn пакета BLAST.

    Запущены следующие команды:

         formatdb -i xc_genome.fasta -n xc -p F
         blastall -p tblastn -d xc -i p0a6y1.fasta -e 0.001 > p0a6y1.out
    
    Выходной файл: p0a6y1.out

    Поиск гомологов белка RBSB_ECOLI в геноме Xanthomonas campestris

    Число находок с Е-value<0,001  3 
    Характеристика лучшей находки:  
       E-value находки 9e-32
    Название геномной последовательности >AE012326 AE008922 Xanthomonas campestris pv. campestris str. ATCC 33913, section 234 of 460 of the complete genome.
    Координаты выравнивания(-ий) в найденной последовательности 7801-7529

  3. Нахождение записи EMBL по последовательности с помощью программы BLASTN
  4. Последовательность из первого задания была вырезана в файл ae012537.fasta
    Выполненные команды:
    seqret -sask
         Reads and writes (returns) sequences
         Input (gapped) sequence(s): xc_genome.fasta:AE012326
             Begin at position [start]: 7529
               End at position [end]: 7801
                Reverse strand [N]: Y
         output sequence(s) [ae012537.fasta]:
    
    Выходной файл: ae012326.fasta

    На сайте EBI (http://www.ebi.ac.uk/Tools/) запустим поиск этой последовательности в банке "EMBL standard prokaryote".

    Необходимо: На страничке "Bioinformatic tools" пойдите по гиперссылке "BLAST" и выберите "NCBI-BLAST2 Nucleotide". Нужные параметры стоят на странице сервиса по умолчанию. Выберите нужный банк в меню "Database". Последовательность можно скопировать из файла в окошко, но можно и не делать этого, а взамен воспользоваться функцией "Upload a file". На странице с результатом поставьте галочку в checkbox против первой находки (убедитесь, что Identity=100%) и нажмите кнопку "Show alignments".

    AC записи EMBL CP000050 и координаты находки в этой записи 2324921-2325133.

    У первой находки (CP000050) был выбран режим "Show Alignments". Была выдана следующая информация:

    
    >EM_PRO:CP000050; CP000050 Xanthomonas campestris pv. campestris str. 8004,
                complete genome.
            Length = 5,148,708
    
      Plus Strand HSPs:
    
     Score = 1365 (210.9 bits), Expect = 1.5e-52, P = 1.5e-52
     Identities = 273/273 (100%), Positives = 273/273 (100%), Strand = Plus / Plus
    
    Query:       1 ATGACCAAGTCCGAATTGATCGAAATCCTGGCGCGACGCCAAGCGCATCTGAAGTCGGAC 60
                   ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
    Sbjct: 2324861 ATGACCAAGTCCGAATTGATCGAAATCCTGGCGCGACGCCAAGCGCATCTGAAGTCGGAC 2324920
    
    Query:      61 GATGTGGATCTGGCGGTCAAATCGCTGCTTGAAATGATGGGGCAGGCCTTGTCCGATGGT 120
                   ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
    Sbjct: 2324921 GATGTGGATCTGGCGGTCAAATCGCTGCTTGAAATGATGGGGCAGGCCTTGTCCGATGGT 2324980
    
    Query:     121 GATCGGATCGAAATCCGTGGGTTTGGCAGCTTCTCGCTGCATTACCGCCCGCCACGCCTG 180
                   ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
    Sbjct: 2324981 GATCGGATCGAAATCCGTGGGTTTGGCAGCTTCTCGCTGCATTACCGCCCGCCACGCCTG 2325040
    
    Query:     181 GGCCGCAACCCGAAGACCGGTGAATCGGTCGCGCTGCCTGGCAAGCATGTTCCGCATTTC 240
                   ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
    Sbjct: 2325041 GGCCGCAACCCGAAGACCGGTGAATCGGTCGCGCTGCCTGGCAAGCATGTTCCGCATTTC 2325100
    
    Query:     241 AAACCCGGCAAGGAGCTGCGCGAGCGCGTGAGC 273
                   |||||||||||||||||||||||||||||||||
    Sbjct: 2325101 AAACCCGGCAAGGAGCTGCGCGAGCGCGTGAGC 2325133
    
    

    Полная запись EMBL получена с помощью команды: entret embl:CP000050 -auto

    Информация о поле FT в полной записи:
    FT   CDS             2324861..2325172
    FT                   /codon_start=1
    FT                   /transl_table=11
    FT                   /locus_tag="XC_1925"
    FT                   /product="integration host factor beta subunit"
    FT                   /db_xref="GOA:Q4UVD5"
    FT                   /db_xref="HSSP:1B8Z"
    FT                   /db_xref="InterPro:IPR000119"
    FT                   /db_xref="InterPro:IPR005685"
    FT                   /db_xref="InterPro:IPR010992"
    FT                   /db_xref="InterPro:IPR020816"
    FT                   /db_xref="UniProtKB/Swiss-Prot:Q4UVD5"
    FT                   /protein_id="AAY48988.1"
    FT                   /translation="MTKSELIEILARRQAHLKSDDVDLAVKSLLEMMGQALSDGDRIEI
    FT                   RGFGSFSLHYRPPRLGRNPKTGESVALPGKHVPHFKPGKELRERVSSVVPVDMVDAAD"
    Координаты CDS: 2324861..2325172
    Участок соответствует записи банка UniProt: Q4UVD5

  5. Поиск гомологов с помощью программы BLASTN
  6. Выбрана запись X04864 (из прошлого задания "Банк нуклеотидных последовательностей EMBL" из табл. "Характеристика записей EMBL, на которые ссылается запись P0A6Y1 банка SwissProt")

    Запись сохранена с помощью команды:

    entret embl:X04864 -auto

    Координаты в записи CDS: 1..600

    Кодирующая последавательность была вырезана в файл:

    seqret "embl:X04864[1:600]" X04864.fasta
    Файл: X04864.fasta

    Поиск гомологов гена в геноме Xanthomonas campestris программой BLASTN

    Запущены следующие команды:

         blastall -p blastn -d xc -i X04864.fasta -e 10 > X04864.out
    
    E-value вводил 10, т.к при 0.001 гомологов не находил. Выходной файл: X04864.out
    Характеристика лучшей находки:E-value <10  
       E-value находки 0.010
    Название геномной последовательности >AE012243 AE008922 Xanthomonas campestris pv. campestris str.
    Координаты выравнивания(-ий) в найденной последовательности 8754-8772
    blastn не нашел ничего соответствующего находке tblastn. Длина выравнивания больше, а E-value меньше в tblastn. tblastn лучше подходит для поиска гомологов, чем blastn.

  7. 9.1 Работа с программой getorf пакета EMBOSS
  8. Получил файл с записью D89965 банка EMBL d89965.entret :
    entret embl:d89965
    Была запущена программа getorf, чтобы получить набор трансляций всех открытых рамок (длиной более 30 нуклеотидов, считая открытой рамкой последовательность триплетов, начинающуюся со старт-кодона и заканчивающуюся стоп-кодоном, при использовании бактериального кода)
    Была выполнена следующая команда:
       
        getorf -minsize 30 -find 1 -table 11
        Finds and extracts open reading frames (ORFs)
        Input nucleotide sequence(s): d89965.entert
        protein output sequence(s) [d89965.orf]:
      
    Получил файл: d89965.orf
    Наиболее соответствующая записи D89965 открытая рамка считывания 5:
    >D89965_5 [19 - 432] Rattus norvegicus mRNA for RSS complete cds.
    MVFWLHHVTVTGDDKRCSFIRDCQQCFKFAQHAIGTPVFCQLNGGFDQMALMHFQFTFKQ
    FEQRKSIRSTARKARDDFVVVQTADLFHVAFHYGIAQRGLTITSDDHMAVTAYAYYSCHE
    LTPWLRIQSTNPVQKYGA  

    Получил файл с записью Swiss-Prot: entret sw:P0A7B8
    Выходной файл: hslv_ecoli.entret При помощи программы BLASTP было найдено, что записи hslv_ecoli.entret банка Swiss-Prot соответствует 13 рамка
    >sp|P0A7B8.2|HSLV_ECOLI  RecName: Full=ATP-dependent protease hslV; AltName: Full=Heat 
    Length=176
    
     Score =  254 bits (648),  Expect = 1e-67, Method: Compositional matrix adjust.
     Identities = 125/125 (100%), Positives = 125/125 (100%), Gaps = 0/125 (0%)
    
    Query  2    MTTIVSVRRNGHVVIAGDGQATLGNTVMKGNVKKVRRLYNDKVIAGFAGGTADAFTLFEL  61
                MTTIVSVRRNGHVVIAGDGQATLGNTVMKGNVKKVRRLYNDKVIAGFAGGTADAFTLFEL
    Sbjct  1    MTTIVSVRRNGHVVIAGDGQATLGNTVMKGNVKKVRRLYNDKVIAGFAGGTADAFTLFEL  60
    
    Query  62   FERKLEMHQGHLVKAAVELAKDWRTDRMLRKLEALLAVADETASLIITGNGDVVQPENDL  121
                FERKLEMHQGHLVKAAVELAKDWRTDRMLRKLEALLAVADETASLIITGNGDVVQPENDL
    Sbjct  61   FERKLEMHQGHLVKAAVELAKDWRTDRMLRKLEALLAVADETASLIITGNGDVVQPENDL  120
    
    Query  122  IAIGS  126
                IAIGS
    Sbjct  121  IAIGS  125
    

  9. 9.2 Поиск некодирующих последовательностей программой BLASTN
  10. Задача- определить, сколько гомологов каждой из тРНК находит программа BLASTN в геноме родственной бактерии Xanthomonas campestris

    1 Я запустил blastn и в качестве последовательности для поиска указал trna_ecoli.fasta , а в качестве банка- геном бактерии проиндексированный
     blastall -p blastn -d xc -i trna_ecoli.fasta -m 8 > trna_ecoli.txt
    2 Создал колонку из названий входных последовательностей командой
    grep ">" trna_ecoli.fasta
    3 Создал скрипт из команд, выдающих число находок для каждой последовательности
    (чтобы сделать файл со скриптом исполняемым:chmod +x script.scr
    и можно его запускать: ./script.scr)

    (scripit) (выходной файл: blastn.txt)

    Сделала тоже самое для E-value<0.001

  11. 9.3 Поиск некодирующих последовательностей программой megablast
  12. Поиск программами megablast и discontigous megablast. Команды:
    megablast -D 2 -m 9 -o trna_ecoliM.txt -d xc -i trna_ecoli.fasta
    megablast -D 2 -m 9 -W 11 -t 16 -N 1 -o trna_ecolidm.txt -d xc -i trna_ecoli.fasta
    Параметры:
     
    -D - вид выходного файла. значение 2 - стандартная выдача
    -t - длина поискового слова, с учетом "разрывов".
    Может принимать значения 16, 18, 21.
    Выбрано 16
    -W - длина поискового слова, без учета "разрывов"
    Может принимать значения 11 или 12
    Выбрано 11
    -N - тип поисковых слов.
    0 - для поиска по кодирующим последовательностям.
    1 - для поиска по некодирующим последовательностям.
    2 - и по тем, и по другим.
    Выбрано значение 1, так как поиск ведется по некодирующим последовательностям. 

    Отчётный Excel-файл trna.xlsx

  13. Анализ результатов
  14. Выбрал пару из tRNA E.coli и найденного в геноме другой бактерии гомологичного участка.
    При поиске гомологичных участков в геноме Xanthomonas campestris из тРНК metY программой
    BLASTN находится последовательность AE012363, а поиск программой megablast результатов не дает
    (т.к. blastn ищет по рамкам длины 11, а megablast ищет слова длины 28).

    Выравнивание в BLASTN:

    >AE012363 AE008922 Xanthomonas campestris pv. campestris str. ATCC
               33913,  section 271 of 460 of the complete genome.
              Length = 8145
    
     Score = 95.6 bits (48), Expect = 5e-21
     Identities = 69/76 (90%)
     Strand = Plus / Minus
    
                                                                           
    Query: 2   gcggggtggagcagcctggtagctcgtcgggctcataacccgaagatcgtcggttcaaat 61
               |||||||||||||| |||| ||||||||||||||||||||||||| |||  |||||||||
    Sbjct: 205 gcggggtggagcagtctggcagctcgtcgggctcataacccgaaggtcgcaggttcaaat 146
    
                               
    Query: 62  ccggcccccgcaacca 77
               || |||||||| ||||
    Sbjct: 145 cctgcccccgctacca 130
    
    Гомологичный участок AE012363 был вырезан в отдельный файл с помощью команды:
    seqret -sask
    Reads and writes (returns) sequences
    Input (gapped) sequence(s): xc_genome.fasta:AE012363
    Begin at position [start]: 130
    End at position [end]: 205
    Reverse strand [N]: Y
    output sequence(s) [ae012363.fasta]: metY.fasta
    
    Выходной файл: matY.fasta
    Аналогичным образом была получена исходная последовательность тРНК trnamety.fasta
    С помощью программы needle было получено выравнивание этих последовательностей:
    # Aligned_sequences: 2
    # 1: AE012363
    # 2: metY
    # Matrix: EDNAFULL
    # Gap_penalty: 10.0
    # Extend_penalty: 0.5
    #
    # Length: 77
    # Identity:      69/77 (89.6%)
    # Similarity:    69/77 (89.6%)
    # Gaps:           1/77 ( 1.3%)
    # Score: 317.0
    #
    #
    #=======================================
    
    AE012363           1 -gcggggtggagcagtctggcagctcgtcgggctcataacccgaaggtcg     49
                          ||||||||||||||.||||.|||||||||||||||||||||||||.|||
    metY               1 cgcggggtggagcagcctggtagctcgtcgggctcataacccgaagatcg     50
    
    AE012363          50 caggttcaaatcctgcccccgctacca     76
                         ..|||||||||||.||||||||.||||
    metY              51 tcggttcaaatccggcccccgcaacca     77
    
    
    Запись AE012363 EMBL:
    FT   tRNA            complement(130..206)
    FT                   /gene="XCC2514"
    FT                   /product="tRNA-Met"
    FT                   /note="Found by tRNAscan"