Учебный сайт Юдиной А.С.

Главная

Обо мне

Семестры

HMM профиль.

Выбор целевого семейства.

Для построения профиля была определена выборка из домена PF00932 у представителей Chordata (ранг: тип).
Проводился поиск по Uniprot со следующим запросом: database:(type:pfam id:PF00932) taxonomy:"Chordata [7711]" AND reviewed:yes.
Было найдено 21 последовательность.
Выбранное семейство доменов включает в себя концевые домены белков ламинов, которые относятся к классу IV промежуточных филаментов и являются основными компонентами белковой оболочки, подстилающей внутреннюю мембрану ядра. Концевой домен (LTD) обеспецивает разнообразные белок-белковые и белок-лигандные контакты и встречается у ламинов разных типов и форм (A/C, B1, B2).

Построение профиля.

Полученные последовательности были выравнены в программе Jalview (Рис.1). Выравнивание было поправлено вручную: убраны плохо выровнявшиеся концы последовательностей, в начале добавлены и удалены гэпы для достижения большего числа консервативных позиций. Две последовательности были удалены из выравнивания. Ссылка на проект выравнивания: LTD_align.



Рис.1

Этапы построения профиля:
Команда: hmm2build profile_new.out LTD_align.mfa - построение профиля.
Команда: hmm2calibrate profile_new.out - калибровка профиля.
Полученный профиль - profile_new.out.

Поиск по профилю в Swissprot.

С помощью команды hmm2search --domE 1000 --domT -50 profile_new.out /srv/databases/emboss/data/uniprot/uniprot_sprot.fasta > find_new.out среди записей банка данных Swissprot были найдены последовательности, соответствующие построенному профилю.
Поиск проходил с уменьшением порога E-value и веса последовательности.

Найденная данные по доменам были добавлены в исходную таблицу Ecxel. С помощью функции ВПР были отмечены последовательности, изначально найденные в Uniprot.
Вся необходимая информация для дальнейшей работы сведена в таблицу, в которой лист Uniprot содержит изначально найденные последовательности, лист Swissprot - последовательности найденные по профилю, лист Histogram - гитограмму весов найденных последовательностей, лист ROC - все данные для построения ROC кривой.
Таблица: LTD.xlxs.

Построение ROC кривой.

Для разных выбранных порогов были вычислены коэффициенты Sensitivity (True Positive/ (True Positive + False negative)) и Specificity (True Negative/(False Positive + True Negative)). По величинам Sensitivity и 1-Specificity построена ROC кривая (Рис.2).



Рис.2

По гистограмме (Рис.3) весов найденных в Swissprot последовательностей определен порог.



Рис.3

Порог: 436.

  • Sensitivity = 1
  • Specificity = 1
  • Precision profile = 0,81
  • Precision profile with cutoff = 1

Вывод: Профиль достаточно точен для определения принадлежности белка к семейству, так как из найденных в Swissprot 26 белков с помощью профиля был найден 21 белок (они же и были ранее найдены в Uniprot) с точностью 1. Вид ROC-кривой подтверждает такой вывод.
Выставленный порог веса позволяет точно выявлять белки искомого семейства и отвергать ложные находки.


© Юдина Анастасия, 2016