Для исследования был взят домен с ID QueC, AC PF06508 (pfam.xfam.org/family/PF06508. Домен катализирует первую стадию синтеза квеуозина, на которой синтезируется preQ0.
Все последовательности с доменом сохранены в .jvp и fasta.
Были выбраны две архитектуры с данным доменом:
Архитектура | Число доменов | Кратко о втором домене | Число последовательностей |
QueC, QueF | 2 | PF14489: участие в синтезе квеуозина | 166 |
GATase_7, QueC | 2 | PF13537: глутамин амидотрансфераза | 22 |
Список всех архитектур, содержащих QueC, по ссылке: pfam.xfam.org/family/PF06508#tabview=tab1.
С помощью скрипта swisspfam-to-xls.py была получена сводная таблица с информацией о последовательностях, содержащих домен.
Затем с Uniprot были скачаны все последовательности по имеющимся AC и представлены в виде таблицы при помощи скрипта uniprot-to-taxonomy.py. Т.о., были получены данные о таксономической принадлежности последовательностей. Далее при помощи функции VLOOKUP эти данные были перенесены в основную таблицу, в которую также был добавлен столбец, в котором подсчитаны длины доменов в последовательностях.
Запуск скрипта filter-alignment.py вкупе с ВПР дал понять, что одна из архитектур стречается только у одного организма, а вторая - у нескольких архей. Квеуозин - совсем не мейнстримное соединение.
Было взято сеймейство GspH (PF12019). Были выбраны две архитектуры:
Архитектура | Число доменов | AC второго домена | Число последовательностей |
N_methyl, GspH | 2 | PF07963 | 504 |
N_methyl_2, GspH | 2 | PF13544 | 485 |
Далее были произведены все те же действия, что и с предыдущим семейством, в результате получился fasta project и таблица.
Для первой структуры был рассмотрен таксон Bacteria, для второй - Proteobacteria. Для первой архитектуры были рассмотрены подтаксоны Deinococcus и Proteobacteria, для второй - Betaproteobacteria и Gammaproteobacteria. Результат в табл. ниже:
Архитектура | Число последовательностей | Betaproteobacteria | Gammaproteobacteria |
N_methyl, GspH | 20 | 13 | 7 |
N_methyl_2, GspH | 20 | 10 | 10 |
После этого при помощи filter_alignment.py были получены интересующие нас последовательности, обладающие искомой архитектурой. После некоторой обработки в jalview выравнивание стало выглядеть вот так.
Архитектура N_methyl, GspH была закодирована как А1, другая - как А2. B - Betaproteobacteria, G - Gammaproteobacteria.
C помощью МЕGA было построено дерево. Ветви раскрашены следующим образом:
Вывод
Общность основных кластеров в получившемся дереве основана в основном не на обладании общей архитектурой, а на общей таксономической принадлежности. Кластеры, содержащие последовательности одной архитектуры, принадлжащие к разным подтаксонам, имеют не более 3-5 листьев, гораздо меньше, чем таксономически схожие.
Можно сделать вывод об эволюционной нейстойчивости доменных архитектур GspH, но надо учитывать, что в силу необходимости был выбран таксон довольно узкий для наших задач (Proteobacteria). Надо полагать, общность последовательностей с одной архитектурой была бы ярче, если бы была возможность работать с таксоном более высокого уровня.