Программы пакета BLAST для работы с нуклеотидными последовательностями


    1.Поиск в геноме участков, кодирующих белки, похожие на заданный

    Были созданы индексные файлы пакета BLAST для поиска белка TRMD_ECOLI из Escherichia coli K-12 по заданному геному P.multocida.
    На kodomo-count при помощи программы formatdb была осуществлена команда:
    formatdb -i pm_genome.fasta -p f -n pme
    Для поиска гомологов белка TRMD_ECOLI в геноме P.multocida была использована программа BLASTN, в которой была выполнена следующая команда:
    blastall -p tblastn -d pme -i trmd_ecoli.fasta -o result_pme.txt -e 0.001
    В результате были получены следующие данные, представленные в таблице:

    Поиск гомологов белка TRMD_ECOLI в геноме P.multocida

    Число находок с Е-value<0,001
    1
    Характеристика лучшей находки:  
       E-value находки
    e-112
    AC соответствующей записи EMBL
    AE006168
    Координаты выравнивания в записи EMBL
    7219-7953
    Координаты CDS в записи EMBL
    7219-7956
    AC UniProt для этого CDS
    Q9CLE1

    2.Поиск сразу в нескольких геномах участков, кодирующих белки, похожие на заданный

    Были созданы индексные файлы BLAST для поиска по всем трем геномам сразу.
    Создаются текстовые переменные, описывающие путь к файлам , для которых будут создаваться индексные:
    sobaka=/home/export/samba/public/y07/Term3/EMBL
    genomes="$sobaka/st_genome.fasta $sobaka/xc_genome.fasta $sobaka/pm_genome.fasta"

    Далее были созданы индексные файлы и осуществлён поиск:
    formatdb -i "$genomes" -p f -n all
    blastall -p tblastn -d all -i trmd_ecoli.fasta -o 3_out.txt -e 0.001
    Число находок с Е-value<0,001
    3
     
    Видовое название организма: Salmonella typhimurium LT2 Pasteurella multocida Xanthomonas campestris
    E-value находок
    e-136
    e-112
    6e-69
    AC соответствующих записей EMBL
    AE008821
    AE006168
    AE012219
    Координаты выравниваний в записи EMBL
    14171-13407
    7219-7953
    3879-4628
    Координаты CDS в записи EMBL
    13404-14171
    7219-7956
    3873-4631
    AC UniProt для этого CDS
    P36245
    Q9CLE1
    Q8PBC1
    В результате анализа данных можно сделать вывод, что E-value находки, обнаруженной в первом упражнении, уже не является лучшим при сравнении с другими последовательностями.

    3. Поиск гомологов с помощью программы BLASTN

    Был создан fasta-файл gene_trmd_ecoli.fasta с последовательностью из генома E.coli, кодирующей белок TRMD_ECOLI.
    При помощи программы BLASTN был осуществлён поиск гомологов этого гена в трёх геномах посредством команды:
    blastall -p blastn -d all -i gene_trmd_ecoli.fasta -o all_blastn.txt -e 0.001
    В результате проведённого анализа было выявлено, что у гена, кодирующего белок TRMD_ECOLI, найдено 2 гомолога.
    E-value лучшей находки: e-113
    >AE008821 AE006468 |AE008821| Salmonella typhimurium LT2, section 125 of
                 220 of the complete genome.
              Length = 21387
    
     Score =  406 bits (205), Expect = e-113
     Identities = 238/249 (95%)
     Strand = Plus / Minus
    
                                                                             
    Query: 7     attggcataattagcctgtttcctgaaatgttccgcgcaattaccgattacggggtaact 66
                 ||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||
    Sbjct: 14165 attggcatagttagcctgtttcctgaaatgttccgcgcaattaccgattacggggtaact 14106
    
                                                                             
    Query: 67    ggccgggcagttaaaaatggcctgctgagcatccagagctggagtcctcgcgacttcacg 126
                 ||||||||||| ||||| |||||||||| |||||| ||||||||||||||||||||| ||
    Sbjct: 14105 ggccgggcagtaaaaaaaggcctgctgaacatccaaagctggagtcctcgcgacttcgcg 14046
    
                                                                             
    Query: 127   catgaccggcaccgtaccgtggacgatcgtccttacggcggcggaccggggatgttaatg 186
                 |||||||||||||||||||||||||| |||||||||||||||||||||||||||||||||
    Sbjct: 14045 catgaccggcaccgtaccgtggacgaccgtccttacggcggcggaccggggatgttaatg 13986
    
                                                                             
    Query: 187   atggtgcaacccttgcgggacgccattcatgcagcaaaagccgcggcgggtgaaggcgca 246
                 ||||||||||||||||||||||||||||| ||||||||||||||||| ||||||||||| 
    Sbjct: 13985 atggtgcaacccttgcgggacgccattcacgcagcaaaagccgcggcaggtgaaggcgct 13926
    
                          
    Query: 247   aaggtgatt 255
                 || ||||||
    Sbjct: 13925 aaagtgatt 13917
    
    
    Аннотация соответствующего участка генома, полученная из файла EMBL с AC AE008821, представлена в файле annotation.txt.

    Число находок с Е-value<0,001
    2
     
    Видовое название организма Salmonella typhimurium LT2Pasteurella multocida
       E-value находки
    e-113
    4e-05
    AC соответствующей записи EMBL
    AE008821
    AE006168 
    Координаты выравниваний в записях EMBL
    14165-13917 
    7363-7445 
    Координаты CDS в записи EMBL
    13404-14171 
    7219-7956 
    AC UniProt для этого CDS
    P36245 
    Q9CLE1 

    При сравнении результатов, полученных в этом и предыдущем упражнениях можно заметить:
    1.При последнем поиске посредством программы blastn были обнаружены 2 гомолога(не найден гомолог Xanthomonas campestris) , в то время как при
    соответствующем поиске при помощи tblastn были найдены 3 гомолога.
    2.E-value находок, обнаруженных в последний раз blastn имеют значительно более плохие значения, нежели полученные tblastn в предыдущем предложении.

    Третий семестр


    ©Черниогло Елена