Матрицы весов аминокислотных замен.

На главную страницу второго семестра

Изучение матрицы BLOSUM62.

Предлагаемая в задании матрица импортирована в Excel. Строки и столбцы расположены по группам:
- A,G,S,T
- N,D,E,Q
- K,R,H
- M,I,L,V
- F,Y,W
- P
- C
Строки, относящиеся к разным группам, выделены разными цветами. «Лишние» столбцы и строки (4 последние…) удалены (информация в них несостоятельна на данный момент). Результат сохранен в файле blosum62.xls.
Следующий этап: выборка двух групп, состоящих более чем из 1 аминокислоты каждая (группа(1) K,R,H и группа(2) F,Y,W). Вычисляю средний вес замен между разными аминокислотами внутри первой группы, внутри второй группы и между группами – см. файл bl62_count.xls.
Внутри первой группы (1) – средний вес составляет 0,33; внутри второй группы (2) – средний вес равен 2,00. Средний вес замен между группами составляет -1,89.
В случае (1) средний вес меньше, чем в случае (2). Объяснить это можно следующими существенными отличиями свойств аминокислот, входящих в состав двух групп:
- F,Y,W (фенилаланин, тирозин, триптофан) – ароматические аминокислоты; а из первой группы только гистидин;
- По данным «сводной» таблицы гидрофобности (получена при выполнении зачетного задания 1 первого семестра на основании 3х шкал гидрофобности (лист HPhob)): K,R,H (лизин, аргинин, гистидин)– гидрофильные аминокислоты – сходство в пределах группы (1); фенилаланин – гидрофобный (к гидрофобной аминокислоте можно отнести и триптофан, а вот тирозин – уже не пойдет (оценка 0 по шкале гидрофобности));
- K,R,H – боковые группы заряжены положительно; во второй группе: триптофан – положительно, а тирозин – отрицательно…
Средний вес замен между разными аминокислотами между группами меньше средних весов внутри групп, т.к. физико-химические свойства входящих в их состав аминокислот по группам различны (но внутри группы, повторюсь, сходны – собственно, по принципу сходности свойств и произведено разделение на группы – ведь это влияет на третичную структуру белка).

Вычисление весов замен аминокислот на основе одного "блока".

На сайте базы данных BLOCKS проведен поиск блоков, относящихся к белку ASPG2_ECOLI, на странице "Get Blocks by keyword" по SwissProt AC - P00805. Выбран блок IPB006034 (IPB006034С – самый «широкий»). Найденный блок сохранен (строки, начиная с "ID" и по "//") в файле block.dat.
С помощью программы pairs_count.exe получена таблица количеств различных пар аминокислот в данном блоке. В качестве процента идентичности использовано 62. Результат сохранен в файле block_pairs.txt.

Задача: рассчитать веса аминокислотных замен для трех пар аминокислот.

Решение: для расчетов были отобраны следующие аминокислоты: D (аспарагиновая кислота), N (аспарагин), H (гистидин). Такая выборка неслучайна: аспарагиновая кислота – функциональный лиганд исследуемого белка ASPG2_ECOLI. Тогда получаются пары:

D-D;
D-N (пара аминокислот со сходными свойствами);
D-H (пара аминокислот с совершенно различными свойствами).

Как считать?..

Я предлагаю 2 способа расчета (вообще, сначала их было 3...) – потом будет проще оценить результативность каждого, сравнив полученные значения. В файле block_pairs.xls они обозначены как «Расчет2», «Расчет3». Сначала о том, что подразумевается в каждом из случаев:

Расчет2. Откуда что берется:
1. Формула для расчетов: W=log_х (Qij / (pi * pj)), где W – вес аминокислотной замены; Q_ij – частота встречаемости аминокислотной пары; p_i , p_j – частоты аминокислотных остатков, х – основание логарифма (соответственно значениям веса из Blossum62).
2. Q_ij = N_ij / Т, где N_ij – количество аминокислотных пар (по таблице, см. файл block_pairs.xls лист block_pairs; Т=Total count, см. там же ). Частоты аминокислотных остатков - p_i , p_j - см. расчеты в этом же файле, лист count_2.
Расчет3. Откуда что берется:
1. Формулы и методы взяты из статьи St.Henikoff, J.G.Henikoff (1992) (скачать ее можно отсюда).
2. Используемая формула - W=log₂ (Q_ij / (p_i * p_j)), если i=j и W=log₂ (Q_ij / (2p_i * p_j)), если i≠j.
3. Q_ij = N_ij / Т, где N_ij – количество аминокислотных пар (по таблице, см. файл block_pairs.xls лист block_pairs; Т=Total count, см. там же ), а p_i=Q_ii+Σ_j≠i Q_ij/2.

Лист count_2 файла block_pairs.xls содержит расчеты весов аминокислотных замен.

РАСЧЕТ 2: основание логарифма в формуле W=log_х (Q_ij / (p_i * p_j)) составляет 1,602 (х=1,602). На мой взгляд, это оптимальный выбор, так как устанавливается взаимное соответствие значений весов аминокислотных замен: равенство весов для пары D-D. Это обеспечивает фиксацию, своего рода, «точки отсчета» и позволяет действительно сравнить значения с соответствующими из blosum62 (например, выбор основания 2 лишает такой возможности, так как слишком велик разброс значений. На точность влияет размер выборки, но важно понять, с чего начинать сравнение (что считать "истиной", а что – нет)).

Результаты:

Результаты расчета2 Пара а.о. Значения из blosum62

6 D-D 6

1 D-N 1

2 D-H -1

«Налицо» два совпадения. И тем не менее, присутствует некоторое «ощущение фокуса» (это я о выборе основания логарифма) . С другой стороны, важно не столько основание логарифма, сколько отношение под знаком логарифма и его изменения. По моим данным, вес замены D-H составляет 2. Это крайне сомнительно (даже без данных blosum62 ясно, что что-то не то…) – уж слишком разные по физико-химическим свойствам аспарагиновая кислота и гистидин.

Оправдание: и 184 объекта (а.о., входящих в состав блока IPB006034С) могут быть непоказательны – маловато для объективной статистики… Тем более рассмотрение 3х пар…

В случае РАСЧЕТА 3 данные также не полностью соответствуют данным blosum62. Объяснение этому аналогичное – пример одного блока непоказателен. Но что мне нравится в этих результатах – приблизительно одинаковая «погрешность» (в сравнении с blosum62) и соотвестсвие знаков. Этот метод расчета окажется самым рациональным при выполнении 3его пункта задания.

Итог (повторюсь, все расчеты можно найти на листах файла block_pairs.xls):

Результаты расчета2 (вес замены) Результаты расчета3 (вес замены) Пара а.о. Значения из blosum62

6 4 D-D 6

1 0 D-N 1

2 0 D-H -1

Вычисление весов замен аминокислот на основе большой выборки.

Аналогичным образом вычисляю веса аминокислотных замен для трех пар аминокислот на основе 200 блоков из банка данных BLOCKS. Данные с блоками взяты из blocks_200.txt. Частоты аминокислотных остатков берутся в AAfreq.txt.

Результаты расчета2 (вес замены) Результаты расчета3 (вес замены) Результаты расчета4 (большая выборка) Результаты расчета5 (большая выборка) Пара а.о. Значения из blosum62

6 4 6 5 D-D 6

1 0 4 0 D-N 1

2 0 2 0 D-H -1

РАСЧЕТ 4: метод подбора основания логарифма не увенчался успехом – слишком разные получаются значения с blosum62 (что и неудивительно: хотя блоков 200, но рассматриваются только 3 пары а.о.). Выход из сложившейся ситуации: рассмотреть не 3 пары, а все пары с аспарагиновой кислотой.

Тогда основание логарифма составит 1,251 (по совпадению с blosum62 по паре аспарагиновая к-та – аспаратиновая к-та). В итоге получилось, что совпадающих весов – только 2 (пары D-D, D-C).

В общем-то (к моему удивлению!) результаты расчетов для большой выборки в пределах 3х пар оказались хуже, чем при расчете из одной выборки. Объяснить это я могу тем, что в таком случае сложнее удачно подобрать основание логарифма для получения большего числа совпадений. Хотя и основание 1,251 дает не самые плохие результаты: 2 «идеальных» совпадений + в 32% соответствие знаков показателей веса. Однако без неудач не бывает побед - именно "нелучшие" результаты и явные несоответствия расчета 4 стимулировали меня обратить внимание на статью St.Henikoff, J.G.Henikoff и предложенные в ней формулы.

РАСЧЕТ 5: метод St.Henikoff, J.G.Henikoff (назовем его так для ясности) дает гораздо более качественные результаты. Объясняется это тем, что, во-первых, выборка существенно больше (по сравнению с пунктом 2); во-вторых, методика, предложенная в статье, значительно снижает число ошибок.

Используемые формулы: W=log₂ (Q_ij / (p_i * p_j)), если i=j и W=log₂ (Q_ij / (2p_i * p_j)), если i≠j.

Итак, полных совпадений (выделены сиреневым цветом) – 6; число близких значений (в пределах +/- 1 с сохранением знака; выделение бледно-желтым) – 11; соответствие знаков – в 90% случаях. Отлично!

Результаты – см. файл block_pairs.xls лист blocks_200.

*** Оригинальную (вернее даже черновую...) версию протокола с более подробными рассуждениями (там, в частности, упоминается и о способе "расчет1", и о его несостоятельности...) можно посмотреть здесь.

Результаты расчета2	Пара а.о.	Значения из blosum62
6	D-D	6
1	D-N	1
2	D-H	-1

Результаты расчета2 (вес замены)	Результаты расчета3 (вес замены)	Пара а.о.	Значения из blosum62
6	4	D-D	6
1	0	D-N	1
2	0	D-H	-1

Результаты расчета2 (вес замены)	Результаты расчета3 (вес замены)	Результаты расчета4 (большая выборка)	Результаты расчета5 (большая выборка)	Пара а.о.	Значения из blosum62
6	4	6	5	D-D	6
1	0	4	0	D-N	1
2	0	2	0	D-H	-1