Домены и профили
Поиск домена и доменной архитектуры и подготовка файлов
Для работы было выбрано семейство белков оболочки лютеовируса (Luteo_coat (PF00894)). Домен содержит 3 белка в seed, 95 белков в full, 3236 белков в Uniprot. Средняя длина домена составила 137.5. Также была выбрана доменная архитектура, содержащая домены Luteo_coat и PLRV_ORF5, идущих друг за другом. Эта архитектура характерна для 39 белков.
|
Рис. 1: Выбранная двухдоменная структура. |
Был скачан файл с белками, сожержащими домен Luteo_coat. При помощи скрипта был получен список AC белков. Также были скопированы в файл AC белков, имеющих двухдоменную архитектуру. С помощью скрипта получили последовательности белков с двумя доменами. После выравнивания в JalView были удалены участки до домена Luteo_coat, также были удалены последовательности совпадающие более чем на 80 процентов, а также еще дополнительно исключены несколько последовательностей с крупными делециями. В итоге для построения выравнивания были использованы 21 последовательность.
Построение HMM-профиля
Для построения HMM-профиля был использован пакет HMMER. Были использованы следующие команды:
hmm2build -g hmmout.txt filtered.fa
hmm2calibrate hmmout.txt
В результате работы программы был получен HMM-профиль, имеющий длину 734 а.о. Далее с помощью HMMER был произведен поиск по HMM-профилю в выборке full с помощью следующей команды:
hmm2search --cpu=1 hmmout.txt Belov-full-95.fasta > hmm_search_result.txt
В конечном итоге был создан excel-файл с двумя листами. Лист 'final_table' содержит таблицу со следующими колонками: AC всех белков и информацию о том, имеет ли белок выбранную архитектуру, использовался ли белок для построения HMM-профиля, входит ли белок в список находок, вес находки и E-value находки. Лист 'search' содержит результаты выдачи поиска по HMM-профилю в выборке full и количество белков выборке full, количество находок и количество белков с выбранной архетиктурой.
Проверка HMM-профиля
Cначала с помощью Excel был построен график распределения весов:
|
Рис. 2: Распределение весов находок. |
На диаграмме можно наблюдать резкое веса между -291,1 и 178,9 значениями. Можно предположить, что порог веса находится в данном интервале. С помощью построения ROC-кривой оценим данное предположение. В таблицу из листа "Pics" была добавлена колонка с информацией о принадлежности белка к выбранной архетиктуре ("yes" принадлежит, "no" нет). Далее для каждого значения веса (считаем что каждый вес является порогом) были вычислены 1-специфичность и чувствительность и затем построена ROC-кривая:
|
Рис. 3: ROC-кривая. |
Для определения порога с оптимальными значениями чувствительности и специфичности для каждого веса было определено значение F1 и построена кривая:
|
Рис. 4: F1 кривая. |
Значению максимума на этой кривой равному ~0,963 соответсвует значение score равное -291,1. Этому скору соответсвует первое, равное 1 значение чувствительности. Данное значение как раз и является порогом, разделяющим белки с выбранной архетиктурой и без архетиктуры.
|