Главная страница третьего семестра

Поиск гомологов белка PHOQ_ECOLI в геномах родственных бактерий

Задание 2 пр.7. Поиск гомологов белка PHOQ_ECOLI в одном геноме.

     При помощи программы formatdb было создано 6 индексных файлов пакета BLAST: 3 для генома Pasteurella multocida и 3 для геномов Vibrio cholerae, Pseudomonas aeruginosa и Pasteurella multocida вместе взятых. При создании индексных файлов трех геномов пришлось вводить две переменные:
     genpath=/home/export/samba/public/tmp - указывает на полный путь к файлам с геномами.
     genomes="$genpath/vc_genome.fasta $genpath/pa_genome.fasta $genpath/pm_genome.fasta" - суммирует все файлы в один
     Переменные вводились, чтобы UNIX мог прочитать все файлы враз, а также для экономии времени.

     Далее при помощи программы blastall был произведен поиск гомологов белка PHOQ_ECOLI в геноме Pasteurella multocida. При этом в командной строке были использованы следующие параметры:

  • -p tblastn -указывает, что необходимо работать с программой tblastn (пробная последовательность-белок, банк нуклеиновых кислот)
  • -d с указанием далее базового имени индексных файлов, созданных для генома Pasteurella multocida
  • -i с указанием далее файла с последовательностью белка PHOQ_ECOLI в fasta формате
  • -o с указанием далее файла, куда необходимо поместить результаты

         В результате выполнения этой программы было найдено 3 гомолога исследуемого белка в геноме Pasteurella multocida: AE006226 (E-value=1e-17), AE006079 (E-value=3e-10) и AE006055 (E-value=1e-08). За основу гомологичности бралось E-value<0,01 в соответствующем выравнивании.

    Задание 3 пр.7.Поиск гомологов белка PHOQ_ECOLI в трех геномах.

         Далее программа blastall была запущена для трех геномов. Лучшим гомологом на этот раз оказался AE004548 из бактерии Pseudomonas aeruginosa (E-value=4e-53). E-value предыдущих находок, естественно, изменилось: AE006226 (E-value=7e-17), AE006079 (E-value=1e-09), AE006055 (E-value=8e-08). Представим, что индексные файлы для BLASTа - это своеобразные банки данных нуклеотидных последовательностей, очевидно, что банк для трех геномов больше, чем для одного, а значит вероятность получить в нем точно такое же выравнивание выше. Этим и объясняются более высокие значения E-value во втором случае.

    Задание 4 пр.7. Поиск гомологов гена белка PHOQ_ECOLI в трех геномах.

         При помощи параметра программы blastall -p blastn (пробная последовательность нуклеотидная, банк нуклеиновых кислот) был произведен поиск гомологов гена белка PHOQ_ECOLI в трех геномах. Гены, полученные при выполнении второго задания 6 практикума, совпали на 100%, так что какой именно ген был взят неважно.
         В результате поиска был найден всего лишь один гомолог AE004769 из организма Pseudomonas aeruginosa (E-value=0,004). При поиске гомологов с использованием белковой последовательности выравнивание этого гена имело E-value>6. Объяснить это можно следующим образом: одна и та же аминокислота кодируется несколькими триплетами (например, глицин кодируется кодонами GGU, GGC, GGA и GGG). Следовательно, при использовании в выравнивании белковой последовательности эти кодоны рассматриваются как идентичные, а если выравниваютя нуклеотидные, то уже возникает разница (в случае с глицином на одну последнюю букву). Этим объясняется то, что гомологи, полученные с помощью tblastn, имеют очень высокое E-value, когда анализ идет через blastn.

    Задание 1 пр.8. Сравнение программ BLAST и fasta34.

         В этом задании поиск гомологов гена белка PHOQ_ECOLI производился программой fasta34, в отличие от BLASTа этой программе не нужны индексные файлы, она требует весь геном сразу. Кроме того fasta34 работает с нуклеотидной последовательностью, не переводит её в аминокислотную, как делает это BLAST. Ниже приводится сравнение результатов использования использования двух программ.

    Программа Лучший гомолог (AC в EMBL) Координаты выравнивания E-Value
    tblastn AE004548 40-476/1591-2832 4e-53
    fasta34 AE004548 550-1460/1960-2890 6,6e-26



    Задание 2 пр.8. Программа megablast.

         Целью этого задания являлась проверка точности работы программы MEGABLAST. Как известно, эта программа читает "слова" длиной в 28 нуклеотидов, следовательно если ген терпит мутацию, изменяющую, например, каждый 27 нуклеотид, то MEGABLAST уже не рассматривает его как гомолога исходной последовательности. Иллюстрация этому преведена ниже.

         Исходный фрагмент гена (рассматривается megablastом как гомолог гена)



         Измененный фрагмент гена (изменена каждая 27 буква), уже не распознается megablastом как гомолог. Измененные буквы выделены цветом.

    Попытка выполнения задания 3 пр.8

         Целью выполнения этого задания был поиск гомологов глициновых тРНК в трех геномах при помощи megablast. При этом были использованы следующие параметры:
  • -t-длина шаблона разрывного слова. Методом тыка было подобрано t=16
  • -W-длина слова была уменьшена до 11, ввиду небольшой длины анализируемых тРНК.
  • -N-тип шаблона разрывного слова. Был взят равным 1, поскольку мы иссследуем некодирующие последовательности.
    В результате запуска megablast в выходном файле оказалось 13 гомологов, лучшим из них оказался AE004708 из Pseudomonas aeruginosa (E-Value=2e-37).
         Очевидно, что чем меньше берутся параметры -t b -W, тем больше гомологов найдет программа (чем меньше будет длина последовательности между гэпами, тем больше гомологов).Однако, значительный выигрыш в числе приводит к значительному проигрышу в качестве.

    © Низамутдинов Игорь, 2004