На главную страницу третьего семестра BLASTwork

Работа с программами из пакета BLAST.

  1. В данном задании было предложено проиндексировать 3 файла в формате fasta содержаших геномы организмов Pasteurella multocida, Pseudomonas aeruginosa и Vibrio cholerae при помощи команды formatdb:
    formatdb -i pm_genome -p F -n pm
    Аналогично для остальных файлов.
    Затем, при помощи одной из программ пакета blastall, нужно было определить - не закодированны ли в данных неанотированных геномах белки, похожий на AMPA_ECOLI. Была выбрана программа TBLASTN, поскольку на вход подается аминокислотная последовательность, поиск происходит в банке данных нуклеиновых кислот и подходит для поиска гомологов белка в неаннотированных нуклеотидных последовательностях:
    blastall -p tblastn -d pm -i AMPA_ECOLI.fasta -o pm_AMPA.fasta
    Аналогично для остальных файлов.
    Ниже приведенна таблица с результатами.
    Поиск гомологов AMPA_Ecoli Геном Pasteurella multocida Геном Pseudomonas aeruginosa Геном Vibrio cholerae
    Характеристика лучшей находки:
         E-value находки e-166 e-147 0.0
      координаты выравнивания(-ий)
    в записи генома
    10318...8846 7359...8840 128...1618
    AC соответствующей записи EMBL AE006053 AE004800 AE004320
      Координаты CDS в записи EMBL (если они есть) complement (8834..10318)   128..1639
      AC UniProt в записи EMBL (если есть) P57823 O68822 Q9K2W5
    Число находок с Е-value<0,01
    2 1 2

    Как видно из значений e-value наилучшей находкой является ген из организма Vibrio cholerae.

  2. Далее были созданы индексные файлы сразу для 3 геномов и на их основе велся поиск также в программе TBLASTN. В таблице приведенны отличия от предыдущего поиска.
    Число находок с Е-value<0,01
    5
    E-value находки 0.0

    В данном случае получается все равно искать ли три раза или же создать индексные файлы сразу для трех файлов. Дело разве что в экономии времени.

  3. В этом упражнении нужно было поискать гомологи гена, кодирующего белок AMPA_ECOLI, в данных трёх геномах программой BLASTN. Наилучшие выравнивание оказалось следующие:
    Query: 1182 gcatggagtttagtgtaaaaagcggtagcccggagaaacagcggagtgcctgcatcgtcg 1241
                |||||||||| ||||| || || || ||||| ||||||||||| || || || ||||| |
    Sbjct: 126  gcatggagttcagtgttaagagtggcagccctgagaaacagcgcagcgcatgtatcgttg 185
    
                                                                            
    Query: 1242 tgggcgtcttcgaaccacgtcgcctttctccgattgcagaacagctcgataaaatcagcg 1301
                | || || || ||||||||||||||||||||  | ||||||||||| |||||||||||||
    Sbjct: 186  ttggggtgtttgaaccacgtcgcctttctccagtcgcagaacagcttgataaaatcagcg 245
    
                                                                         
    Query: 1302 atgggtacatcagcgccctgctacgtcggggcgaactggaaggaaaaccggggcaga 1358
                | || || || ||  | ||||||||||| || || || || || |||||||||||||
    Sbjct: 246  acggctatattagttcactgctacgtcgcggtgatctagagggtaaaccggggcaga 302
    
    В качестве "Sbjct" представлен ген из организма Vibrio cholerae. Этот ген является наиболее гомологичен из имеющихся.E-value этого выравнивания составил 3e-23.

©Попенко Анна