1. Построение филогенетического дерева выборки последовательностей домена, составленной ранее

В сконструированных ниже деревьях следующие буквы кодируют следующие значения:
  • N - доменная архитектура, содержащая N-концевой домен; D - доменная архитектура, несущая DAO домен
  • Для N-архитектуры: B - бактерии, F - грибы, M - животные, P - растения, CB - цианобактерии
  • Для D-архитектуры: P - протеобактерии, A - актинобактерии, CB - цианобактерии


    Когда не ясно, камим методом для реконструкции дерева пользоваться, лучше применить несколько и на основании этого составить целостную картину.
    Были построены филогенетические деревья алгоритмами Neighbor-Joining и UPGMA.

    Neighbor-Joining UPGMA

    В результате использования программы fneighbor я получил неукоренненное дерево, в котором последовательности двух доменных архитектур четко разделялись (за исключение пары представителей). Далее укоренил полученное дерево таким образом, чтобы от корня отходили две клады, соответствующие двум доменным архитектурам.
    Скобочная струтктура

    Дерево, построенное по данному алгоритму, исходно было укорененным, причем практически так же, как и я сделал в предыдущем случае (промахнулся на одну последовательность).
    Скобочная струтктура


  • Два полученных дерева очень похожи, имеют одинаковые клады. Можно заключить, что две доменные архитектуры четко разделились в какой-то момент времени: голубая рамка - N-архитектура, синяя и красная - D-архитектура.
  • Что интересно, так это то, что деревья демонстрируют дальнейшую эволюцию D-архитектуры: синяя рамка - протеобактерии, а красная - актинобактерии, причем в кладе протеобактерии судя по двум деревьям также выделяется и ветвь цианобактерий. Таким образом, клада D-архитектуры соответствует таксономии: сначала дивергировали протео- и актинобактерии, а затем от протеобактерий отделились цианобактерии.
  • Такого элегантного таксономического деления в кладе N-архитектуры увидеть затруднительно. Особняком же выделяется ветвь растений (в зеленой рамке) по отношению к грибам, животным и бактериям. Видимо, у растений эта архитуктура весьма специфична.

    Чтобы проверить достоверность ветвей дерева я провел бутстрэп-анализ. В результате послучил дерево, на котором - что меня главным образом и интересует - размечено, сколько раз данная ветвь появлялась в деревьях, сконструированных по бутстрэп-репликам.
    Представленное дерево, на самом деле, не укорененное, я его и не старался укоренять, а привел лишь для того, чтобы показать, что в 100% деревьев ветвь с D-архитектурой актинобактерий существовала, также как и ветвь с N-архитектурой в 95% случаев.

    2. Разделение выравнивания на две группы

    По итогам филогенетического анализа:
  • Есть четкое деление по доменным архитектурам,
  • Представители второй доменной архитектуры делятся таксономически.
    Я делю исходное выравнивание на две группы по доменным архитектурам.

    3. Построение профиля, оличающего одну группу последовательностей от другой

    Профиль для первой архитектуры
    Профиль для второй архитектуры

    Поиск по исходным послеовательностям с использованием профилей:
    Профиль для первой архитектуры
    Для порога 8,93: TP = 20 (все), TN = 24, FN = 0, FP = 1
    Профиль для второй архитектуры
    Для порога 10,7: TP = 25 (все), TN = 18, FN = 0, FP = 2

    4. Поиск последовательностей в swissprot по сконструированным профилям

    1. N-архитектура:
    Использовал порог, обнаруженный в предыдущем задании, - 9 (на самом деле, округлил)
    Было найдено 143 последовательности, причем все имели данную доменную архитектуру.
    Я это лекго выяснил, так найденные последовательности были из нескольких семейств (холин дегидрогеназы, пираноза-2-оксидазы и пр.), и я просто проверил в pfame по парочке представителей из каждого смемейства.

    2. D-архитектура:
    А в этом случае ситуация получилась гораздо хуже.
    При пороге 11 было найдено все лишь 10 последовательностей, причем ни одна из них не имела данную архитекктуру, а все принадлежали сугубо предыдущей. Я опустил порог до 9 и получи 24 последовательности - и тоже только с предыдущей архитектурой.
    С одной стороны, это кажется удивительным, ведь в предыдущем задании были найдены все белки данной D-архитектуры, и эти белки уж точно принадлежат swissprot'у, кода же сейчас ни один из swissprot'а не нашелся.
    С другой стороны, этот результат вполне мог бы быть ожидаемым, если взглянуть на выравнивание белков с двумя архитектурами - наблюдается высокая идентичнось. Несмотря на такую ситуацию, меня обнадеживает тот факт, что все-таки находится очень мало последовательностей с другой архитектурой.

    Таким образом, удалось создать профиль для первой архитектуры, позволяющий достаточно хорошо найти её представителей. Для второй архитектуры создать аналогичным образом профиль не получилось, следовательно, нужен какой-то другой подход.