Далее при помощи программы blastall был произведен поиск гомологов белка
PHOQ_ECOLI в геноме Pasteurella multocida. При этом в командной строке были использованы
следующие параметры:
В результате выполнения этой программы было найдено 3 гомолога исследуемого белка в геноме
Pasteurella multocida: AE006226 (E-value=1e-17), AE006079 (E-value=3e-10) и AE006055
(E-value=1e-08). За основу гомологичности бралось E-value<0,01 в соответствующем выравнивании.
Задание 3 пр.7.Поиск гомологов белка PHOQ_ECOLI в трех геномах.
Далее программа blastall была запущена для трех геномов. Лучшим гомологом на этот
раз оказался AE004548 из бактерии Pseudomonas aeruginosa (E-value=4e-53). E-value предыдущих
находок, естественно, изменилось: AE006226 (E-value=7e-17), AE006079 (E-value=1e-09), AE006055
(E-value=8e-08). Представим, что индексные файлы для BLASTа - это своеобразные банки данных
нуклеотидных последовательностей, очевидно, что банк для трех геномов больше, чем для одного, а
значит вероятность получить в нем точно такое же выравнивание выше. Этим и объясняются более
высокие значения E-value во втором случае.
Задание 4 пр.7. Поиск гомологов гена белка PHOQ_ECOLI в трех геномах.
При помощи параметра программы blastall -p blastn (пробная последовательность
нуклеотидная, банк нуклеиновых кислот) был произведен поиск гомологов
гена белка PHOQ_ECOLI в трех геномах. Гены, полученные при выполнении второго задания 6
практикума, совпали на 100%, так что какой именно ген был взят неважно.
В результате поиска был найден всего лишь один гомолог AE004769 из организма Pseudomonas
aeruginosa (E-value=0,004). При поиске гомологов с использованием белковой последовательности
выравнивание этого гена имело E-value>6. Объяснить это можно следующим
образом: одна и та же аминокислота кодируется несколькими триплетами (например,
глицин кодируется кодонами GGU, GGC, GGA и GGG). Следовательно, при
использовании в выравнивании белковой последовательности эти кодоны
рассматриваются как идентичные, а если выравниваютя нуклеотидные, то уже
возникает разница (в случае с глицином на одну последнюю букву). Этим
объясняется то, что гомологи, полученные с помощью tblastn, имеют очень
высокое E-value, когда анализ идет через blastn.
Задание 1 пр.8. Сравнение программ BLAST и fasta34.
В этом задании поиск гомологов гена белка PHOQ_ECOLI производился программой
fasta34, в отличие от BLASTа этой программе не нужны индексные файлы, она
требует весь геном сразу. Кроме того fasta34 работает с нуклеотидной
последовательностью, не переводит её в аминокислотную, как делает это
BLAST. Ниже приводится сравнение результатов использования использования
двух программ.
Программа | Лучший гомолог (AC в EMBL) | Координаты выравнивания | E-Value |
tblastn | AE004548 | 40-476/1591-2832 | 4e-53 |
fasta34 | AE004548 | 550-1460/1960-2890 | 6,6e-26 |
© Низамутдинов Игорь, 2004