Классификация ферментов (EC)


1. Сбор информации о ферменте ECHB_HUMAN  

EC-код фермента ECHB: 2.3.1.16

Расшифровка EC-кода и перевод на русский активности, соответствующей каждому из четырех чисел кода:
2 - трансферазы,
2.3 - ацилтрансферазы,
2.3.1 - перенос групп, отличных от аминоацильных,
2.3.1.16 - ацетил-КоА-ацилтрансферазы.

Схема реакции катализируемой ферментом ECHB:
Ацил-КоA + ацетил-КoA = КoA + 3-оксоацил-КoA.

2. Сколько ферментов человека с близкими функциями описано в Swiss-Prot?  

Для поиска белков человека, являющихся ферментами и имеющих общие с заданным ферментом уровни классификации, воспользуемся сервисом SRS.  Поиск будем проводить по двум параметрам, меняя только EC-код (2.3.1.16): 

- Species - "Human"
- ECNumber - 2.*; 2.3.*; 2.3.1.*; 2.3.1.16

EC-код Число записей в Swiss-Prot Параметры поиска
2.*.*.* 1610 ([swissprot-ECNumber:2.*] & [swissprot-Species:Human])
2.3.*.* 177 ([swissprot-ECNumber:2.3.*] & [swissprot-Species:Human])
2.3.1.* 153 ([swissprot-ECNumber:2.3.1.*] & [swissprot-Species:Human])
2.3.1.16 3 ([swissprot-ECNumber:2.3.1.16] & [swissprot-Species:Human])

3. Определение того, насколько сохраняется функция заданного фермента у белков со сходными последовательностями 

1) Чтобы получить список всех белков мыши (Mus musculus) из Swiss-Prot, у которых класс EC 2 - Transferases, снова воспользуемся сервисом SRS
На запрос ([swissprot-Species:Mouse] & [swissprot-ECNumber:2.*]) нашлось 1388 белков. 
Полученные данные сохранили в fasta-формате и в виде текстовой таблицы.

Также нашли совпадения белков с порядковыми номерами EC: 

- EC 2.3: 177 белков
- EC 2.3.1: 157 белков 
- EC 2.3.1.6: 4 белка (ECHB_MOUSE, THIKA_MOUSE, THIKB_MOUSE, THIM_MOUSE)  

2) Из базы данных UniProt взяли последовательность заданного фермента. В названиях последовательностей, полученных ранее, оставили только мнемоники, используя команду sed:

sed -e "s/sp|.*|//" -e "s/ .*//" < echb_mouse.fasta > mouse.fasta

Далее проиндексировали полученный файл и выполнили поиск гомологов ECHB_HUMAN программой blastp:

makeblastdb -in mouse.fasta -out prot -dbtype prot
blastp -query echb_human.fasta -db prot -evalue 1 -out prot_echb.out
blastp -query echb_human.fasta -db prot -evalue 10 -out prot_echb_2.out
blastp -query echb_human.fasta -db prot -evalue 0.001 -out prot_echb_3.out

Получили три файла, отличающиеся результатом только из-за порога на E-value. Ниже приведена таблица, 16-ти белков, полученных при самом слабом пороге (-evalue 10):

Белок E-value Identity Сходство
ECHB_MOUSE  0.0   91% 97%
THIKA_MOUSE 1e-61 34% 50%
THIL_MOUSE  3e-61 35% 50%
THIKB_MOUSE 2e-60 35% 50%
THIM_MOUSE  1e-57 33% 50%
THIC_MOUSE  4e-46 32% 49%
NLTP_MOUSE  3e-10 24% 37%
OXSM_MOUSE  0.008 41% 56%
FAS_MOUSE   0.81  32% 50%
UHMK1_MOUSE 0.91  26% 42%
FASTK_MOUSE 1.2   26% 44%
PTK6_MOUSE  1.7   48% 58%
ATM_MOUSE   3.5   38% 45%
ERBB4_MOUSE 4.6   23% 40%
SMOK1_MOUSE 4.6   39% 58%
NEK8_MOUSE  7.9   37% 42%

Из этих белков, можно считать достоверными гомологами только первые 9 (которые получились при сильном пороге -evalue 0,001) с высоким процентом сходства (>=50%) и низким E-value (< 10 в минус 63 степени).

3) Теперь добавим в таблицу информацию о EC-коде и сохранении функции каждого белка:

Белок E-value Identity Сходство EC-код Сохранение функции
ECHB_MOUSE  0.0   91% 97% 2.3.1.16 сохраняется полностью
THIKA_MOUSE 1e-61 34% 50% 2.3.1.16 сохраняется полностью
THIL_MOUSE  3e-61 35% 50% 2.3.1.9 сохраняется до подподкласса
THIKB_MOUSE 2e-60 35% 50% 2.3.1.16 сохраняется полностью
THIM_MOUSE  1e-57 33% 50% 2.3.1.16 сохраняется полностью
THIC_MOUSE  4e-46 32% 49% 2.3.1.9 сохраняется до подподкласса
NLTP_MOUSE  3e-10 24% 37% 2.3.1.176 сохраняется до подподкласса
OXSM_MOUSE  0.008 41% 56% 2.3.1.41 сохраняется до подподкласса
FAS_MOUSE   0.81  32% 50% 2.3.1.41 сохраняется до подподкласса
UHMK1_MOUSE 0.91  26% 42% 2.7.11.1 сохраняется до класса
FASTK_MOUSE 1.2   26% 44% 2.7.11.8 сохраняется до класса
PTK6_MOUSE  1.7   48% 58% 2.7.10.2 сохраняется до класса
ATM_MOUSE   3.5   38% 45% 2.7.11.1 сохраняется до класса
ERBB4_MOUSE 4.6   23% 40% 2.7.10.1 сохраняется до класса
SMOK1_MOUSE 4.6   39% 58% 2.7.11.1 сохраняется до класса
NEK8_MOUSE  7.9   37% 42% 2.7.11.1 сохраняется до класса

Сравнивая с EC-кодом ECHB_HUMAN (2.3.1.16), отметим, что у первых пяти белков сходство вплоть до порядкового номера EC 2.3.1.16 (за исключением третьего белка THIL_MOUSE), у четырёх последующих белков функция сохраняется до подподкласса EC 2.3.1, у последних же семи сохраняется лишь класс EC 2.

Как мы видим, чем выше значение E-value, тем хуже сохраняется функция (например, у первой находки с полным сохранением функции E-value=0, плюс к этому очень большой процент сходства 97% и соответственно идентичности 91%).