Практикум 9. Домены и профили

Подготовка данных

Для поиска домена, удовлетворющего требованиям, таблица, полученная Андреем Малышевым, была обработана с помощью Excel. В результате был выбран домен LIFR_N (PF18207) со следующими характеристиками:

  • Seed = 33
  • Full = 198
  • Средняя длина = 78,1
  • Среднее сходство (%) = 43
  • Средний процент покрытия белка доменом = 7,42

LIFR_N это N-концевой домен рецептора лейкемического ингибирующего фактора

Данный домен встречается в 6 архитектурах, из них была выбрана двухдоменная архитектура LIFR_N, LIFR_D2. Она встречается у 87 белков из 198.

Рис 1. Выбранная доменная архитектура

Построение HMM-профиль семейства белков

Для домена LIFR_N с сайта Pfam были загружены все последовательности белков, содержащих его, и сохранены в файл osipova-full-198.fasta.

Таблица в формате tsv, содержащая информацию о доменной организации белков из Full, получена выполнением скрипта. Для нужной архитектуры во второй колонке указано 'LIFR_N, LIFR_D2', а для остальных — прочерк.

Architectures.fasta с последовательностями с выбранной доменной архитектурой. По этому файлу в Jalview было выполнено выравнивание программой Muscle с параметрами по умолчанию, из которого были удалены последовательности совпадающие более чем на 95%, а также участки до начала домена LIFR_N (границы 51-129) и после конца домена LIFR_D2 (границы 131-244).

Полученное выравнивание содержит 34 последовательности.

Для получения HMM-профил был использован пакет HMMER для этого последовательно были выполнены следующие команды:

hmm2build -g hmm_out.txt pr9_norm.fasta

hmm2calibrate hmm_out.txt

hmm2search --cpu 1 hmm_out.txt osipova-full-198.fasta > hmm2search_out.txt

В результате был получен HMM-профиль двухдоменной архитектуры, именющий длину 199 а.о. и файл, содержащий 197 находок.

Файл со всеми последовательностями, таблица с информацией о белках с выбранной архитектурой, файл с hmm и файл с списком AC, отобранных в jalview были поданы в скрипт и на выход получена таблица, содержащая сведения о всех последовательностях, содержащих домен LIFR_N.

Анализ HMM-профиля

Таблица с результатами поиска по профилю и колонкой с отметкой, совпадает ли доменная архитектура с выбранной, и колонками: чувствительность при данном пороге и единица минус специфичность.

Рис 2. ROC кривая

Площадь под полученной ROC-кривой равна 0,5828, что достаточно близко к 0,5 и это плохо, так как демонстрирует непригодность выбранного метода классификации.

Рис 3. Зависимость параметра F1 от порога веса

Интервал порога веса с наибольшей точностью равен 130-170

Рис 4. Распределение весов находок