Поиск ортологов и паралогов

Составление списка гомологичных белков, включающих паралоги

Для начала я скопировал себе в папку протеомы выбранных бактерий и сконкатенировал их в общий fasta файл. Из этого файла развернул базу данных blastp. Затем я получил список идентификаторов SwissProt гомологов искомого белка с префиксом для USA с помощью следующих команд:

blastp -db proteomes -query POA6H1.fasta -evalue 0.001 -out out.fasta grep -oE '\w+_\w{5}' out.fasta | sort | uniq | sed -e 's/^/sw:/' > blast_hits

Затем я с помощью seqret вытянул из базы данных SwissProt большинство получившихся гомологов. К сожалению, не все гомологи обнаружились в этой базе данных, так что остальные последовательности я выделил вручную с UniProt.

Ниже привожу выдачу blastp:

Sequences producing significant alignments: (Bits) Value sp|P0A6H1|CLPX_ECOLI ATP-dependent Clp protease ATP-binding subun... 860 0.0 sp|A8GAR0|CLPX_SERP5 ATP-dependent Clp protease ATP-binding subun... 806 0.0 sp|Q8ZC66|CLPX_YERPE ATP-dependent Clp protease ATP-binding subun... 805 0.0 sp|B4EU54|CLPX_PROMH ATP-dependent Clp protease ATP-binding subun... 769 0.0 sp|Q12LA2|CLPX_SHEDO ATP-dependent Clp protease ATP-binding subun... 712 0.0 sp|P57981|CLPX_PASMU ATP-dependent Clp protease ATP-binding subun... 612 0.0 sp|P44838|CLPX_HAEIN ATP-dependent Clp protease ATP-binding subun... 587 0.0 sp|A8GL96|HSLU_SERP5 ATP-dependent protease ATPase subunit HslU O... 96.7 7e-22 sp|B4F171|HSLU_PROMH ATP-dependent protease ATPase subunit HslU O... 96.7 7e-22 sp|Q8ZJJ5|HSLU_YERPE ATP-dependent protease ATPase subunit HslU O... 95.1 2e-21 sp|Q12IT8|HSLU_SHEDO ATP-dependent protease ATPase subunit HslU O... 94.0 4e-21 sp|P0A6H5|HSLU_ECOLI ATP-dependent protease ATPase subunit HslU O... 93.6 6e-21 sp|P57968|HSLU_PASMU ATP-dependent protease ATPase subunit HslU O... 93.2 9e-21 sp|P43773|HSLU_HAEIN ATP-dependent protease ATPase subunit HslU O... 92.0 2e-20 tr|A8GCD8|A8GCD8_SERP5 ATP-dependent Clp protease, ATP-binding su... 51.6 4e-07 tr|A0A5P8YGZ0|A0A5P8YGZ0_YERPE ATP-dependent Clp protease ATP-bin... 51.2 4e-07 tr|B4EV83|B4EV83_PROMH ATP-dependent Clp protease ATP-binding sub... 50.1 1e-06 tr|B4F2B3|B4F2B3_PROMH ATP-dependent zinc metalloprotease FtsH OS... 46.6 1e-05 sp|P0AAI3|FTSH_ECOLI ATP-dependent zinc metalloprotease FtsH OS=E... 46.2 2e-05 tr|A8G901|A8G901_SERP5 ATP-dependent zinc metalloprotease FtsH OS... 46.2 2e-05 tr|A0A5P8YB42|A0A5P8YB42_YERPE ATP-dependent protease OS=Yersinia... 46.2 2e-05 tr|A0A5P8YCE6|A0A5P8YCE6_YERPE ATP-dependent zinc metalloprotease... 45.8 2e-05 tr|Q9CNJ2|Q9CNJ2_PASMU ATP-dependent zinc metalloprotease FtsH OS... 43.1 2e-04 sp|P0ABH9|CLPA_ECOLI ATP-dependent Clp protease ATP-binding subun... 43.1 2e-04 sp|P71377|FTSH_HAEIN ATP-dependent zinc metalloprotease FtsH OS=H... 42.7 2e-04 tr|Q9CKU5|Q9CKU5_PASMU ComM OS=Pasteurella multocida (strain Pm70... 41.6 5e-04 tr|Q12QI8|Q12QI8_SHEDO ATP-dependent zinc metalloprotease FtsH OS... 41.2 7e-04

Затем, я скриптом вырезал только идентификаторы из имени последовательностей, и получил fasta файл, который уже использовал для построения дерева.

Реконструкция и визуализация

Выравнивание и построение дерева проводил с требуемыми настройками. Cссылка на скачивание Newick формулы.

Изображение дерева

Приведу некоторое обсуждение групп схлопнутых на рисунке 2:

  • FTSH: среди этой группы есть белки всех семи бактерий, но пять из них не аннотированы. Группа содержит ветвь {YERPE, SERP5}, соответствующую семейству Yersiniaceae, ветвь - {HAIEN, PASMU}, соотвествущую семейство Pasteurellaceae. Дерево группы не соответсвтвует эталонному, есть несуществующая ветвь {SHEDO, PROMH}.

  • CLPA: среди этой группы есть белки четырех из семи бактерий, три из них не аннотированы. Группа соответствует порядку Enterobacterales. Дерево группы не соответсвтвует эталонному - нет ветви {YERPE, SERP5}, соответствующей семейству Yersiniaceae.

  • HSLU: среди этой группы есть белки всех семи бактерий, все аннотированы. Группа содержит все таксоны, содержащиеся в эталонном дереве (три клады, перечисленные выше). Дерево соответствует эталонному дереву по топологии, но укоренено не в ту ветвь (в ветвь, отделяющую Pasteurellaceae)

  • CLPX: среди этой группы есть белки всех семи бактерий, все аннотированы. Топология и укоренение группы идентичны группе HSLU

 

Примеры пар ортологов: CLPX_ECOLI и CLPX_SERP5, CLPX_SERP5 и CLPX_YERPE, CLPX_YERPE и CLPX_PROMH

Примеры пар паралогов: CLPX_ECOLI и HSLU_ECOLI, HSLU_ECOLI и CLPA_ECOLI, CLPA_ECOLI и FTSH_ECOLI