Поиск гомологов PDXS_BACSU с помощью алгоритма BLAST
В ходе работы был проведен поиск гипотетичеких гомологов PDXS_BACSU по разным базам данных (Swiss-Prot, PDB, nr) с помощью алгоритма BLAST. Результаты представлены в таблице 1. Последовательность собственно исходного белка найдена во всех проверенных базах.
При сравнении количество найденных гомологов (порог E-value меньше 1е-10) можно видеть, что наименьшее количество последовательностей дали результы поиска по базе PDB. Это связано с тем, что 3D-структуры имеются не для каждой белковой последовательности. База nr дает наибольшее число находок, т.к. включает последовательности всевозможных источников.
Число находок было лимитировано:
- Для Swiss-Prot: предельным размером выдачи - 10000;
- Для PDB: стандартным порогом E-value;
- Для nr: предельным размером выдачи - 10000.
Таблица 1. Результаты поисков гипотетических гомологов PDXS_BACSU по разным базам данных
Поиск по Swiss-Prot | Поиск по PDB | Поиск по "nr" | |
"Лучшая" находка (соответствует заданному белку) | |||
Accession | P37527 | 2NV1_A; 2NV2_A (разные цепи PDXS, состоящего из идентичных цепей, в PDB не объединены) | NP_387892.1 |
E-value | 0.0 | 0.0 | 0.0 |
Вес (в битах) | 595 | 595 | 595 |
Процент идентичности (%) | 100 | 100 | 100 |
Число находок в списке описаний с E-value < 1e-10 (число "хороших" кандидатов в гомологи) | 152 | 11 | 1625 |
"Худшая из удовлетворительных" находка (последняя в выдаче с E-value < 1) | |||
Номер находки в списке описаний | 352 | 20 | 2096 |
Accession | Q83PC0.5 | 47B7_A | YP_252477.1 |
E-value | 0.99 | 0.80 | 0.99 |
Вес (в битах) | 33.9 | 31.2 | 39.3 |
% идентичности | 36 | 37 | 19 |
% сходства | 54 | 45 | 34 |
Длина выравнивания | 53 | 51 | 0.99 |
Координаты выравнивания (от-до, в запросе и в находке) | 199-251; 170-220 | 207-257; 217-267 | 204-254; 188-236 |
Число гэпов | 2 | 0 | 2 |
Поиск гипотетических гомологов PDXS_BACSU с фильтром по таксонам
В данном разделе представлены результаты поиска лучшего гомолога белка в организмах таксона, филогенетически как можно более далекого (таблица 2).
Для исследования можно было бы использовать следующие таксоны:
- 'Eukaryota' (другой доминион);
- 'Actinobacteria' (другой отдел того же царства бактерий);
- 'Clostridia' (другой класс того же отдела Firmicutes);
- 'Lactobacillales' (другой порядок того же класса Bacilli);
- 'Listeriaceae' (другое семейство того же порядка Bacillales);
- 'Geobacillus' (другой род того же семейства Bacillaceae);
- 'Bacillus anthracis' (другой вид того же рода)
Перечисленные выше таксоны расположены в порядке приближения к роду Bacillus Subtilis, которому принадлежит изучаемый белок. В работе необходимо было найти гомолог (по критерию E-value<0.001) дальнего таксона. Такой гомолог был найден уже в доминионе Eukaryota.
Некоторые параметры выдачи BLAST представлены в таблице 2. Было проведено сравнение результатов при их обработки в BLAST с использованием матриц аминокислотных замен BLOSUM разных серий: BLOSUM62 и BLOSUM45. Как видно, для них в одном выравнивании различаются только значения E-value и вес выравниваний. Это связано с различным порогом кластеризации и, соответственно, с различными весами замен отдельных аминокислот на другие.
Таблица 2. Результат поиска гомолога изучаемого белка у организма наиболее далекого таксона.
BLOSUM 62 | BLOSUM 45 | |
Номер находки в списке описаний | 1 | 1 |
Accession | XP_003494181.1 | XP_003494181.1 |
E-value | 1е-177 | 0.0 |
Вес (в битах) | 502 | 526 |
% идентичности | 83 | 83 |
% сходства | 91 | 91 |
Длина выравнивания | 267 | 267 |
Координаты выравнивания (от-до, в запросе и в находке) | 4-294; 5-295 | 4-294; 5-295 |
Число гэпов | 0 | 0 |
BLAST двух последовательностей
С помощью программы BLAST было проведено парное выравнивание PDXS_BACSU и гомолога эукариотического организма, найденного при выполнении предыдущей части работы. В данном разделе представлена карта локального сходства (рисунок 1). Белковые последовательности очень близки друг к другу, поэтому на карте появляется прямая линия, которая остается неизменной при пороге на E-value, равному 10 (т.е. по умолчанию) и с порогом на E-value, ранвному одной 0,01.
Рис. 1. Карта локального сходства.