Рис. 1. Выбранные архитектуры. Верхняя - I, нижняя - II.
Excel файлы: файл со сводкой из Uniprot по всем организмам имеющим мой домен, файл с выбранными мною последовательностями для дальнейшней работы. Получены при помощи swisspfam-to-xls.py, uniprot-to-taxonomy.py, Uniprot ID retriever. Далее было получено выравнивание всех последовательностей из данного семейства (ссыслка на проект) и выбранных последовательностей (ссылка на проект). Раскраска Blosum62, Above identity threshold 70%, убраны пустые колонки. В выравнивании есть сильно консервативные позиции (например, заряженный R в моём домене), они выравнены и окрашены, поэтому можно судить о правильности выравнивания. Несколько последовательностей были откровенно неправильно выравнены/имели совсем непохожие последовательности. Они были изъяты.Рис. 2. Консенсусное дерево выравнивания. Разным цветом отмечены разные хорошие подсемейства.
Рис. 3. ROC-кривая.
На самом деле |
принадлежит подсемейству |
не принадлежит |
сумма |
Выше порога по профилю |
8 |
24 |
32 |
Ниже порога |
5 |
2179 |
2184 |
сумма |
13 |
2203 |
2216 |
Просвиров Кирилл. Дата последнего изменения: 15 мая 2015.