Профили


Построение профиля подсемейства

Для построения профиля из выравнивания, полученного в практикуме, необходимо было извлесь только те последовательности, которые образуют "хорошее" подсемейство. Критерии такого подсемейства можно посмотреть здесь. В итоге было выбрано подсемейство, представители которого относятся к Ecdysozoa , а также к доменной архитектуре GP (зеленый цвет). Это подсемейство включает следующие последовательности:

GP_E_E2BNK0/726-960;
GP_E_E9IWT3/637-872;
GP_E_A0A088ADF4/716-950;
GP_E_Q7QB99/723-957;
GP_E_T1HTV2/539-772;
GP_E_PDE6/706-940;
GP_E_PDE6/742-976.

Ниже приведено дерево, из которого было выбрано это подсемейство:


Для построения и калибровки профиля были использованы программы пакета HMMER (Команда для построения профиля - hmm2build profile1 prof.fasta, для калибровки - hmm2calibrate profile1).
Затем был произведён поиск по файлу со всеми белками из Uniprot, содержащих выбранный домен. Результаты поиска были добавлены в таблицу Excel. При этом была добавлена колонка, отражающая принадлежность находки выбранному подсемейству (1 - принадлжеит, 0 - нет).
Итоговую таблицу можно скачать здесь.
Далее необходимо было построить ROC-кривую, а также выбрать порог по E-value. Ниже представлена ROC-кривая:



В качестве порога было выбрано значение E-value 4.6e-87. В этой точке (отмечена зеленым) наибольшая разность (0.881) между чувствительностью и специфичностью.

Таблица 1. Характеристика профиля
Принадлежит подсемействуНе принадлежитСумма
Выше порога по профилю54148202
Ниже порога426332637
Сумма5827812839

При данном пороге чувствительность равна 0.93, а специфичность - 0.998. Исходя из этих значений, можно предположить, что этот профиль будет работать хорошо, его можно использовать для выделения подсемейства.