Предлагаемая в задании матрица импортирована в Excel. Строки и столбцы расположены по группам:
Строки, относящиеся к разным группам, выделены разными цветами. «Лишние» столбцы и строки (4 последние…) удалены (информация в них несостоятельна на данный момент). Результат сохранен в файле blosum62.xls.
Следующий этап: выборка двух групп, состоящих более чем из 1 аминокислоты каждая (группа(1) K,R,H и группа(2) F,Y,W). Вычисляю средний вес замен между разными аминокислотами внутри первой группы, внутри второй группы и между группами – см. файл bl62_count.xls.
Внутри первой группы (1) – средний вес составляет 0,33; внутри второй группы (2) – средний вес равен 2,00. Средний вес замен между группами составляет -1,89.
В случае (1) средний вес меньше, чем в случае (2). Объяснить это можно следующими существенными отличиями свойств аминокислот, входящих в состав двух групп:
Средний вес замен между разными аминокислотами между группами меньше средних весов внутри групп, т.к. физико-химические свойства входящих в их состав аминокислот по группам различны (но внутри группы, повторюсь, сходны – собственно, по принципу сходности свойств и произведено разделение на группы – ведь это влияет на третичную структуру белка).
Задача: рассчитать веса аминокислотных замен для трех пар аминокислот.
Решение: для расчетов были отобраны следующие аминокислоты: D (аспарагиновая кислота), N (аспарагин), H (гистидин). Такая выборка неслучайна: аспарагиновая кислота – функциональный лиганд исследуемого белка ASPG2_ECOLI. Тогда получаются пары:
Как считать?..
Я предлагаю 2 способа расчета (вообще, сначала их было 3...) – потом будет проще оценить результативность каждого, сравнив полученные значения. В файле block_pairs.xls они обозначены как «Расчет2», «Расчет3». Сначала о том, что подразумевается в каждом из случаев:
Лист count_2 файла block_pairs.xls содержит расчеты весов аминокислотных замен.
РАСЧЕТ 2: основание логарифма в формуле W=logх (Qij / (pi * pj)) составляет 1,602 (х=1,602). На мой взгляд, это оптимальный выбор, так как устанавливается взаимное соответствие значений весов аминокислотных замен: равенство весов для пары D-D. Это обеспечивает фиксацию, своего рода, «точки отсчета» и позволяет действительно сравнить значения с соответствующими из blosum62 (например, выбор основания 2 лишает такой возможности, так как слишком велик разброс значений. На точность влияет размер выборки, но важно понять, с чего начинать сравнение (что считать "истиной", а что – нет)).
Результаты:
Результаты расчета2 | Пара а.о. | Значения из blosum62 |
6 | D-D | 6 |
1 | D-N | 1 |
2 | D-H | -1 |
«Налицо» два совпадения. И тем не менее, присутствует некоторое «ощущение фокуса» (это я о выборе основания логарифма) . С другой стороны, важно не столько основание логарифма, сколько отношение под знаком логарифма и его изменения. По моим данным, вес замены D-H составляет 2. Это крайне сомнительно (даже без данных blosum62 ясно, что что-то не то…) – уж слишком разные по физико-химическим свойствам аспарагиновая кислота и гистидин.
Оправдание: и 184 объекта (а.о., входящих в состав блока IPB006034С) могут быть непоказательны – маловато для объективной статистики… Тем более рассмотрение 3х пар…
В случае РАСЧЕТА 3 данные также не полностью соответствуют данным blosum62. Объяснение этому аналогичное – пример одного блока непоказателен. Но что мне нравится в этих результатах – приблизительно одинаковая «погрешность» (в сравнении с blosum62) и соотвестсвие знаков. Этот метод расчета окажется самым рациональным при выполнении 3его пункта задания.
Итог (повторюсь, все расчеты можно найти на листах файла block_pairs.xls):
Результаты расчета2 (вес замены) | Результаты расчета3 (вес замены) | Пара а.о. | Значения из blosum62 |
6 | 4 | D-D | 6 |
1 | 0 | D-N | 1 |
2 | 0 | D-H | -1 |
Аналогичным образом вычисляю веса аминокислотных замен для трех пар аминокислот на основе 200 блоков из банка данных BLOCKS. Данные с блоками взяты из blocks_200.txt. Частоты аминокислотных остатков берутся в AAfreq.txt.
Результаты расчета2 (вес замены) | Результаты расчета3 (вес замены) | Результаты расчета4 (большая выборка) | Результаты расчета5 (большая выборка) | Пара а.о. | Значения из blosum62 |
6 | 4 | 6 | 5 | D-D | 6 |
1 | 0 | 4 | 0 | D-N | 1 |
2 | 0 | 2 | 0 | D-H | -1 |
РАСЧЕТ 4: метод подбора основания логарифма не увенчался успехом – слишком разные получаются значения с blosum62 (что и неудивительно: хотя блоков 200, но рассматриваются только 3 пары а.о.). Выход из сложившейся ситуации: рассмотреть не 3 пары, а все пары с аспарагиновой кислотой.
Тогда основание логарифма составит 1,251 (по совпадению с blosum62 по паре аспарагиновая к-та – аспаратиновая к-та). В итоге получилось, что совпадающих весов – только 2 (пары D-D, D-C).
В общем-то (к моему удивлению!) результаты расчетов для большой выборки в пределах 3х пар оказались хуже, чем при расчете из одной выборки. Объяснить это я могу тем, что в таком случае сложнее удачно подобрать основание логарифма для получения большего числа совпадений. Хотя и основание 1,251 дает не самые плохие результаты: 2 «идеальных» совпадений + в 32% соответствие знаков показателей веса. Однако без неудач не бывает побед - именно "нелучшие" результаты и явные несоответствия расчета 4 стимулировали меня обратить внимание на статью St.Henikoff, J.G.Henikoff и предложенные в ней формулы.
РАСЧЕТ 5: метод St.Henikoff, J.G.Henikoff (назовем его так для ясности) дает гораздо более качественные результаты. Объясняется это тем, что, во-первых, выборка существенно больше (по сравнению с пунктом 2); во-вторых, методика, предложенная в статье, значительно снижает число ошибок.
Используемые формулы: W=log2 (Qij / (pi * pj)), если i=j и W=log2 (Qij / (2pi * pj)), если i≠j.
Итак, полных совпадений (выделены сиреневым цветом) – 6; число близких значений (в пределах +/- 1 с сохранением знака; выделение бледно-желтым) – 11; соответствие знаков – в 90% случаях. Отлично!
Результаты – см. файл block_pairs.xls лист blocks_200.
*** Оригинальную (вернее даже черновую...) версию протокола с более подробными рассуждениями (там, в частности, упоминается и о способе "расчет1", и о его несостоятельности...) можно посмотреть здесь.