Для выполнения данного практикума были отобраны протеомы следующих бактерий из директории /P/y22/term4/Proteomes:
Далее необходимо было подготовить эти протеомы для запуска программы blastp, для этого сначала протеомы были объединены в единый файл (работа осуществлялась в директории term4/practice4):
Затем на основе выбранных протеомов была создана локальная БД с помощью команды:
Затем был запущен blastp на основе созданной базы данных, в качестве запроса подавалась последовательность белка с мнемоникой CLPX_ECOLI (ссылка на файл в fasta-формате), для отбора достоверных гомологичных белков был поставлен порог E-value 0.0001 при помощи следующей команды:
Был получен список находок:
Далее я сделала новый файл для более удобной работы и сделала следующие манипуляции:
Здесь представлена ссылка на формулу дерева в формате Newick. Ниже представлено изображение дерева:
Далее было произведено укоренение дерева в среднюю точку. Ниже представлено изображение дерева:
С помощью разных цветов можно было выделить различные ортологические группы (наборы попарно ортологичных белков, как минимум 4 последовательности в группе). Было выделено 3 штуки (зелёная - ATP-dependent protease ATPase subunit HslU, синяя - ATP-dependent Clp protease ATP-binding subunit ClpX, красная - ATP-dependent zinc metalloprotease FtsH). На дереве можно увидеть примеры пар ортологов и паралогов:
Далее выделенные группы были схлопнуты:
Для более удобного анализа я сюда же вставлю дерево с верной филогенией:
В красную кладу попали белки всего лишь из 4 организмов, однако она построена верно. В зеленую кладу попали белки из 6 организмов: однако она построена неверно: самой внутренней кладой должна быть (PASMU, YERPE), затем (BURMA, AROAE) и только потом (BRUSU, ACICJ). В синюю кладу попали белки всех 7 организмов: однако она построена неверно: самой внешней кладой будет YERPE, потом PASMU, дальше (AROAE, (POLAQ, BURMA)) и только потом (BRUSU, ACICJ).