Домены и профили

|На главную|

|Обо мне|

|Семестры|

|Заметки|

|Ссылки|

Поиск домена и доменной архитектуры и подготовка файлов

Для работы было выбрано семейство белков оболочки лютеовируса (Luteo_coat (PF00894)). Домен содержит 3 белка в seed, 95 белков в full, 3236 белков в Uniprot. Средняя длина домена составила 137.5. Также была выбрана доменная архитектура, содержащая домены Luteo_coat и PLRV_ORF5, идущих друг за другом. Эта архитектура характерна для 39 белков.

Рис. 1: Выбранная двухдоменная структура.

Был скачан файл с белками, сожержащими домен Luteo_coat. При помощи скрипта был получен список AC белков. Также были скопированы в файл AC белков, имеющих двухдоменную архитектуру. С помощью скрипта получили последовательности белков с двумя доменами. После выравнивания в JalView были удалены участки до домена Luteo_coat, также были удалены последовательности совпадающие более чем на 80 процентов, а также еще дополнительно исключены несколько последовательностей с крупными делециями. В итоге для построения выравнивания были использованы 21 последовательность.

Построение HMM-профиля

Для построения HMM-профиля был использован пакет HMMER. Были использованы следующие команды:
   hmm2build -g hmmout.txt filtered.fa
   hmm2calibrate hmmout.txt
  

В результате работы программы был получен HMM-профиль, имеющий длину 734 а.о. Далее с помощью HMMER был произведен поиск по HMM-профилю в выборке full с помощью следующей команды:
   hmm2search --cpu=1 hmmout.txt Belov-full-95.fasta > hmm_search_result.txt
  

Файл с результатом выдачи содержит 86 находок.

В конечном итоге был создан excel-файл с двумя листами. Лист 'final_table' содержит таблицу со следующими колонками: AC всех белков и информацию о том, имеет ли белок выбранную архитектуру, использовался ли белок для построения HMM-профиля, входит ли белок в список находок, вес находки и E-value находки. Лист 'search' содержит результаты выдачи поиска по HMM-профилю в выборке full и количество белков выборке full, количество находок и количество белков с выбранной архетиктурой.

Проверка HMM-профиля

Cначала с помощью Excel был построен график распределения весов:

Рис. 2: Распределение весов находок.

На диаграмме можно наблюдать резкое веса между -291,1 и 178,9 значениями. Можно предположить, что порог веса находится в данном интервале. С помощью построения ROC-кривой оценим данное предположение. В таблицу из листа "Pics" была добавлена колонка с информацией о принадлежности белка к выбранной архетиктуре ("yes" принадлежит, "no" нет). Далее для каждого значения веса (считаем что каждый вес является порогом) были вычислены 1-специфичность и чувствительность и затем построена ROC-кривая:

Рис. 3: ROC-кривая.

Для определения порога с оптимальными значениями чувствительности и специфичности для каждого веса было определено значение F1 и построена кривая:

Рис. 4: F1 кривая.

Значению максимума на этой кривой равному ~0,963 соответсвует значение score равное -291,1. Этому скору соответсвует первое, равное 1 значение чувствительности. Данное значение как раз и является порогом, разделяющим белки с выбранной архетиктурой и без архетиктуры.

© Belov Leonid, 2013