Домены и профили

Описание выбранной доменной архитектуры

Для дальнейшего анализа был выбран домен Acyl-thio_N (PF12590). Число последовательностей seed для него составляет 16, а full - 447. Средняя длинна домена составляет 121,9 аминокислот, среднее сходство - 56%, средний процент покрытия - 30,82%, а число доменных архитектур - 5. Далее была выбрана доменная архитектура - A2X7S4_ORYSI. Она встречается у 26 последовательностей.

tree

Рис.1.Схема выбранной доменной архитектуры

HMM профиль

Далее все последовательности были выровнены в программе Jalview. При этом были удалены все неконсервативные участки с N и C-конца, оставленны только участки с исследуемой доменной архитектурой и удалены иднтичные последовательности. Полученное выравнивание. Далее, используя команды:

hmm2build HMM arch.fa

hmm2calibrate HMM

hmm2search --cpu=1 HMM.xxx Tumbinskii-full-447.fasta > search.txt

В результате выполнения вышепредставленных команд, был получен HMM-профиль и файл с 447 находками.

с помощью скрипта получена таблица, содержащая сведения о всех последовательностях содержащих домен Acyl-thio_N.

tree

Рис.2. ROC кривая

tree

Рис.3. Зависимость параметра F1 от порога веса

tree

Рис.4. Распределение весов находок

Полученная ROC имеет скачок в области значения -0,1 по оси x, что связано с соответствующим скачком весов. Исходя из графика зависимости F1 от веса (рис.3), можно сказать, что порог веса обеспечивающий наибольшие точность и полноту находится в районе 550.

© Тумбинский Роман, ФББ МГУ, 2022