Задание 1.Построить выравнивание представителей домена Pfam белков с разной доменной архитектурой

Я выбрала домен своего белка с идентификатором PF09279. Информация представлена по ссылке здесь

Рисунок 1.Принадлежность выбранного домена к разным таксономическим группам.

Домен включает 64 доменные архитектуры.

Его выравнивание представлено в программе JalView здесь.Выравнивание в фаста формате в файле

Были выбраны 2 доменные архитектуры, которые представлены на рисунке 2.

Рисунок 2.Выбранные доменные архитектуры, содержащие домен PF09279.

Первая архитектура содержит 5 доменов - EF-hand_like, PI-PLC-X, PI-PLC-Y, С2, PLC-beta C terminal, вторая - 5 - EF-hand_like, PI-PLC-X, PI-PLC-Y, PH, С2.

Далее получила таблицу с информацией о доменной структуре каждой последовательности, содержащей данный домен с помощью команды

"python swisspfam-to-xls.py -z /srv/databases/pfam/swisspfam.gz -m domen.txt -o PF09279.txt".

Командой "python uniprot-to-taxonomy.py -i uniprot.txt -o PF09279_taxonomy.txt" была получена таксономия для каждой последовательности.

Данные представлены в сводной таблице здесь

В качестве таксона был выбран Mammalia и 2 подтаксона Laurasiatheria и Euarchontoglires.

Затем надо было выбрать последовательности, содержащих отобранные архитектуры.

Далее были вырезаны их последовательности из общего выравнивания. Выраваниение выбранных последовательностей в Jalview здесь

Выравнивание в фаста формате здесь

Задание 2. Построить филогенетическое дерево последовательностей ДОМЕНА

На основе полученного выравнивания было построено филогенетическое дерево, представленное на рисунке 3, при помощи программы MEGA.

Метод построения дерева: метод максимального правдоподобия.

Рисунок 3.Филогенетическое дерево

Скобочная структура дерева ссылка

На рисунке 3 последовательности имеют особые названия. Цифра "1" означает, что последовательность имеет первую отобранную архитектурную структуру,

цифра "2" - второй архитектуре. "Eua" означает принадлежность к Euarchontoglires, а "Lau" - Laurasiatheria.

Как видно, дерево разделено на две четкие клады, которые заключены в красные рамки на рисунке 3. Мы хотели посмотреть, по какому принципу будет разделение

на клады:по таксону или доменной архитектуре.На полученном дереве видно, что разделение произошло по доменным архитектурам.

Задание 3.Построить профиль подсемейства и охарактеризовать качество его работы.

Для построения профиля необходимо выбрать хорошее подсмемейство из выравнивания. Я выбрала последовательности, которые заключены в зеленую рамку на рисунке 3.

Выравнивание отобранных последовательностей в этом файле

С помощью программы hmm2biuld был построен профиль последовательностей. Программой hmm2calibrate он был откалиброван. Используя этот профиль, был проведен

поиск по всем белкам программой hmm2search. Результат находится здесь

Данные были перенесены в Excel.Последовательности, которые были использованы для построения профиля были отмечены как "ИСТИНА",

остальные - "ЛОЖЬ".Далее был построен график зависимости чувствительности от 1-специфичность.Результаты представлены в таблице

Чувствительность поиска это доля достоверно предсказанных белков, содержащих домен к общему числу белков.

Специфичность это доля достоверно предсказанных белков, которые не содержат домен к общему числу белков.

Сам этот график есть ROC-кривая, которая представлена на графике 1.

График 1.ROC-кривая

При помощи ROC кривой был выбран порог e-value = 2e-79.

На самом деле Принадлежит семейству Не приадлежит сумма
выше порога по профилю 7 18 25
ниже порога по профилю 0 1197 1197
сумма 7 1215 1222