1. Составление списка гомологичных белков, включающих паралоги.
С помощью команды я получила из списка fasta-файлов один:
cat THIDA.fasta SHEDO.fasta RHIME.fasta POLAQ.fasta ECOLI.fasta BRUSU.fasta AROAE.fasta>all1.fasta
Далее была создана база данных:
makeblastdb -in all1.fasta -dbtype prot -out ddbb1
Потом я искала гомологи белка CLPX_ECOLI, где P0A6H1.fasta это файл с последовательностью белка CLPX_ECOLI.
blastp -query P0A6H1.fasta -db ddbb1 -evalue 0.001 -out clpx_out1.txt
У меня получилось 21 находка, файл можно посмотреть по ссылке:
Гомологичные белки
2. Реконструкция и визуализация.
Fasta-файл с последовательностями можно посмотреть здесь:
Fasta
Далее было построено дерево, с помощью программы FastMe, формулу в Newick-формате можно посмотреть тут:
Newick
Пусть это дерево будет эталонным, выглядит оно так: