Поиск в геноме участков, кодирующих белки, похожие на P08877
Задача: определить, закодированы ли похожие белки в геноме Geobacillus thermodenitrificans
Для этого создали в директории block3 индексные файлы пакета BLAST+ для поиска по геному бактерии G.thermodenitrificans.
Использовали команды: makeblastdb -in gt_genome.fasta -dbtype nucl( создали нуклеотидную базу данных на основе полного геномаGeobacillus thermodenitrificans)
tblastn -query P08877.fasta -db gt_genome.fasta -out task13.out -evalue 0.001(программой tblastn провели поиск гомолога)
Поиск гомологов белка P08877 в геноме Geobacillus thermodenitrificans
  • Число находок с E-value< 0,001: 1
  • E-value лучшей находки: 7е -31
  • Название последовательности с лучшей находкой: Geobacillus thermodenitrificans NG80-2, complete genome.
  • Координаты лучшей находки: 953471- 953728
  • Доля последовательности белка P08877 , вошедшая в выравнивание с лучшей находкой: 0,7
    Поиск гомологов некодирующих последовательностей программой BLASTN
    Определим сколько гомологов каждой из тРНК находит программа BLASTN в геноме родственной бактерии.
    Для этого запустим программу blastn, указав в качестве последовательностей для поиска файл trna_bacsu.fasta, в качестве банка- геном бактерии Geobacillus thermodenitrificans.
    используем команду: blastn -task blastn -query trna_bacsu.fasta -db gt_genome.fasta -out blastn.out -outfmt 7 -evalue 0.01
    Создадим колонку из названий входных последовательностей командой:
    grep ">" trna_bacsu.fasta >grep.fasta
    Для создания скрипта из команд использовала Excel.
    Поиск гомологов при измененных параметрах программы BLASTN
    Повторила предыдущее задание еще два раза с измененными параметрами программы, каждый раз сохраняя новый файл. При запускании программы с измененными параметрами( изменение весовой матрицы) подберем значения -gapopen и -gapextend. Также используем команды:
    blastn -task blastn -query trna_bacsu.fasta -db gt_genome.fasta -out 1.out -evalue 0.01 -outfmt 7 -reward 5 -penalty -4 -gapopen 25 -gapextend 10
    blastn -task blastn -query trna_bacsu.fasta -db gt_genome.fasta -out 2.out -evalue 0.01 -outfmt 7 -reward 5 -penalty -4 -gapopen 25 -gapextend 10 -word_size 4
    Получили файл с результатами.
    Анализ результатов
    При изменении веса число находок немного увеличивается,и при изменении длины слова также увеличивается. В файле с выдачей blastn была найдена треониновая т-РНК -BSn5_t20966 tRNA-Thr в паре с участком CP000557 553263-553335, которая была в выдаче при изменении слова, но отсутствовала в остальных файлах. Возможно это связано с тем, что при параметре с уменьшенной длиной слова, точность выравнивания снижается.
    Выравнивание, полученное с помощью программы needle(выравнивание получилось очень хорошим, участок CP000557 соответствует Thr tRNA:
    #=======================================
    #
    # Aligned_sequences: 2
    # 1: BSn5_t20996
    # 2: CP000557.1
    # Matrix: EDNAFULL
    # Gap_penalty: 10.0
    # Extend_penalty: 0.5
    #
    # Length: 73
    # Identity:      62/73 (84.9%)
    # Similarity:    62/73 (84.9%)
    # Gaps:           0/73 ( 0.0%)
    # Score: 266.0
    # 
    #
    #=======================================
    
    BSn5_t20996        1 gccggtgtagctcaattggtagagcgcctgacttgtaagcagtggattgg     50
                         |||||..||||||||||||||||||..|||||||||||.||||.|.|||.
    CP000557.1         1 gccggcttagctcaattggtagagcaactgacttgtaatcagtaggttgc     50
    
    BSn5_t20996       51 gggttcaagtcctcttgccggca     73
                         |||||||||||||...|||||||
    CP000557.1        51 gggttcaagtcctgcagccggca     73
    

    © Boskhomdzhieva Baina, 2012