Профили

Выбрала следующие последовательности:

Они образуют подсемейство, т.к. являются кладой на дереве, относятся к порядку Rhizobiales и имеют единую доменную архитектуру (Рис. 1).

Рис. 1. Ветвь дерева с выбранным подсемейством. Дерево см. практикум 11

Последовательности были извлечены в отдельный файл subfam.fasta . Для построения и калибровки профиля были использованы программы пакета HMMER.

Построение: hmm2build profile1 subfam.fasta

Калибровка: hmm2calibrate profile1

получили файл: profile1

hmm2search profile1 PF16561_full_length_sequences.fasta >> output

После этого был произведен поиск по всем белкам UniProt, содержащим домен HWE_HK. Fasta-файл с последовательностями скачала по ссылке внизу этой страницы.

hmm2search profile1 PF07536_full_length_sequences.fasta >> output

В результате получили файл output

Всего было получено 1626 находок. Результаты поиска перенесли в файл Excel и отсортированы по убыванию Score, отметили представителей выбранного семейства. Таблица

Построили ROC-кривую.

Рис. 1. ROC-кривая

С помощью ROC-кривой выбрали порог E-value, по которому можно судить о принадлежности последовательности к подсемейству. Пороговое значение E-value выбрали равным 8,6E-54. Критерием выбора являлось максимальное значение разности [Чувствительность - (1-Специфичность)]. При таком пороге чувствительноть профиля составляет 1, специфичность 1. Значения при выбранном пороге представлены в таблице 1.

Последовательность Принадлежит подсемейству Не принадлежит Сумма
Выше порога по профилю (включая порог) 6 0 6
Ниже порога 0 1620 1620
Сумма 6 1620 1626

Меня смутила форма данной кривой и я решила взять больше последовательностей: к выбранным добавила еще:

Выбранные 9 последовательностей можно также считать подсемейством, т.к. они все относятся к классуAlphaproteobacteria и имеют одинаковую доменную архитектуру.

Повторила все описанные выше шаги. Получила Таблицу. Построила ROC-кривую

Рис. 2. ROC-кривая_2

Пороговое значение E-value в этом случае также получилось равным 8,6E-54. Специфичность = 1, чувствительность = 0.67

Последовательность Принадлежит подсемейству Не принадлежит Сумма
Выше порога по профилю (включая порог) 6 0 6
Ниже порога 3 1617 1620
Сумма 9 1617 1626
`