Для поиска домена, удовлетворющего требованиям, таблица, полученная Андреем Малышевым, была обработана с помощью Excel. В результате был выбран домен LIFR_N (PF18207) со следующими характеристиками:
LIFR_N это N-концевой домен рецептора лейкемического ингибирующего фактора
Данный домен встречается в 6 архитектурах, из них была выбрана двухдоменная архитектура LIFR_N, LIFR_D2. Она встречается у 87 белков из 198.
Для домена LIFR_N с сайта Pfam были загружены все последовательности белков, содержащих его, и сохранены в файл osipova-full-198.fasta.
Таблица в формате tsv, содержащая информацию о доменной организации белков из Full, получена выполнением скрипта. Для нужной архитектуры во второй колонке указано 'LIFR_N, LIFR_D2', а для остальных — прочерк.
Architectures.fasta с последовательностями с выбранной доменной архитектурой. По этому файлу в Jalview было выполнено выравнивание программой Muscle с параметрами по умолчанию, из которого были удалены последовательности совпадающие более чем на 95%, а также участки до начала домена LIFR_N (границы 51-129) и после конца домена LIFR_D2 (границы 131-244).
Полученное выравнивание содержит 34 последовательности.
Для получения HMM-профил был использован пакет HMMER для этого последовательно были выполнены следующие команды:
hmm2build -g hmm_out.txt pr9_norm.fasta
hmm2calibrate hmm_out.txt
hmm2search --cpu 1 hmm_out.txt osipova-full-198.fasta > hmm2search_out.txt
В результате был получен HMM-профиль двухдоменной архитектуры, именющий длину 199 а.о. и файл, содержащий 197 находок.
Файл со всеми последовательностями, таблица с информацией о белках с выбранной архитектурой, файл с hmm и файл с списком AC, отобранных в jalview были поданы в скрипт и на выход получена таблица, содержащая сведения о всех последовательностях, содержащих домен LIFR_N.
Таблица с результатами поиска по профилю и колонкой с отметкой, совпадает ли доменная архитектура с выбранной, и колонками: чувствительность при данном пороге и единица минус специфичность.
Площадь под полученной ROC-кривой равна 0,5828, что достаточно близко к 0,5 и это плохо, так как демонстрирует непригодность выбранного метода классификации.
Интервал порога веса с наибольшей точностью равен 130-170