Домены и профили

Описание домена

В базе данных Pfam была найден домен Rieske 3Fe-4S, ID = PF18465. Этот домен состоит из железосернистого кластера и субъединицы Rieske, обнаруженной в большой субъединице арсенитоксидазы. Арсенитоксидаза представляет собой 100 кДа молибден- и железо-серосодержащий белок, расположенный на внешней поверхности внутренней мембраны грамотрицательных организмов. Для семейства были скачаны все белковые последовательности. Число белков с доменом в выборках: seed = 19, ful = 155. Длина HMM профиля составляет 94 аминокислоты. По ссылке доступна информация об этом домене.

Описание архитектуры

Порядок доменов в архитектуре следующий: Rieske_3, Molybdopterin, Molydop_binding. В выравнивании было 92 белка с архитектурой. Длина профиля HMM двухдоменной архитектуры составляет 864.

Команды построения профиля, калибровки, поиска по профилю

Сопроводительные материалы, доступные по ссылке

  • Таблица
  • Файл c последовательностями full в fasta, использованные для поиска по вашему профилю
  • Файл с выравниванием белков с выбранной архитектурой
  • Файл с выравниванием белков после ревизии, использованный для построения HMM профиля
  • HMM профиль после калибровки как файл
  • Файл с результатами HMMsearch
  • Анализ HMM-профиля

    Из файла, полученного командой hmm2search, с помощью скрипта была получена таблица, содержащая информацию о 153 находках: AC, Domain, seq-f, seq-t, hmm-f, hmm-t, score, E-value. Также был добавлен столбец true с ответами yes – если AC встретился в списке белков с данной архитектурой, или no в обратном случае случае. Данная таблица была экспортирована в Excel, после чего с помощью формул для нее были посчитаны значения specificity, 1 - sensitivity и F1. Таблица с данными, формулами и графиками доступна по ссылке. По полученным данным были построены следующие 3 графика.

    Рис.1 ROC-кривая

    1) По полученным specificity и 1 - sensitivity была построена ROC-кривая. Однако она не может давать доставерные данные, так как данные принимают отрицательные значения.

    2) Так же был построен графк распределения весов последовательностей, который может быть использован для определения порога по месту начала падения. Примерный порог составляет 1800.

    Рис.2 Распределение весов последовательностей
    Рис.3 F1-кривая

    3) F1-кривая. Для визуализации полученного порога была построена F1-кривая. Локальный максимум данного графика примерно равен 1800.