Матрицы весов аминокислотных замен.


На главную страницу второго семестра
  1. Изучение матрицы BLOSUM62.

    Предлагаемая в задании матрица импортирована в Excel. Строки и столбцы расположены по группам:

    Строки, относящиеся к разным группам, выделены разными цветами. «Лишние» столбцы и строки (4 последние…) удалены (информация в них несостоятельна на данный момент). Результат сохранен в файле blosum62.xls.

    Следующий этап: выборка двух групп, состоящих более чем из 1 аминокислоты каждая (группа(1) K,R,H и группа(2) F,Y,W). Вычисляю средний вес замен между разными аминокислотами внутри первой группы, внутри второй группы и между группами – см. файл bl62_count.xls.

    Внутри первой группы (1) – средний вес составляет 0,33; внутри второй группы (2) – средний вес равен 2,00. Средний вес замен между группами составляет -1,89.

    В случае (1) средний вес меньше, чем в случае (2). Объяснить это можно следующими существенными отличиями свойств аминокислот, входящих в состав двух групп:

    Средний вес замен между разными аминокислотами между группами меньше средних весов внутри групп, т.к. физико-химические свойства входящих в их состав аминокислот по группам различны (но внутри группы, повторюсь, сходны – собственно, по принципу сходности свойств и произведено разделение на группы – ведь это влияет на третичную структуру белка).

  2. Вычисление весов замен аминокислот на основе одного "блока".

    Задача: рассчитать веса аминокислотных замен для трех пар аминокислот.

    Решение: для расчетов были отобраны следующие аминокислоты: D (аспарагиновая кислота), N (аспарагин), H (гистидин). Такая выборка неслучайна: аспарагиновая кислота – функциональный лиганд исследуемого белка ASPG2_ECOLI. Тогда получаются пары:

    Как считать?..

    Я предлагаю 2 способа расчета (вообще, сначала их было 3...) – потом будет проще оценить результативность каждого, сравнив полученные значения. В файле block_pairs.xls они обозначены как «Расчет2», «Расчет3». Сначала о том, что подразумевается в каждом из случаев:

    Лист count_2 файла block_pairs.xls содержит расчеты весов аминокислотных замен.

    РАСЧЕТ 2: основание логарифма в формуле W=logх (Qij / (pi * pj)) составляет 1,602 (х=1,602). На мой взгляд, это оптимальный выбор, так как устанавливается взаимное соответствие значений весов аминокислотных замен: равенство весов для пары D-D. Это обеспечивает фиксацию, своего рода, «точки отсчета» и позволяет действительно сравнить значения с соответствующими из blosum62 (например, выбор основания 2 лишает такой возможности, так как слишком велик разброс значений. На точность влияет размер выборки, но важно понять, с чего начинать сравнение (что считать "истиной", а что – нет)).

    Результаты:
    Результаты расчета2 Пара а.о. Значения из blosum62
    6 D-D 6
    1 D-N 1
    2 D-H -1

    «Налицо» два совпадения. И тем не менее, присутствует некоторое «ощущение фокуса» (это я о выборе основания логарифма) . С другой стороны, важно не столько основание логарифма, сколько отношение под знаком логарифма и его изменения. По моим данным, вес замены D-H составляет 2. Это крайне сомнительно (даже без данных blosum62 ясно, что что-то не то…) – уж слишком разные по физико-химическим свойствам аспарагиновая кислота и гистидин.

    Оправдание: и 184 объекта (а.о., входящих в состав блока IPB006034С) могут быть непоказательны – маловато для объективной статистики… Тем более рассмотрение 3х пар…

    В случае РАСЧЕТА 3 данные также не полностью соответствуют данным blosum62. Объяснение этому аналогичное – пример одного блока непоказателен. Но что мне нравится в этих результатах – приблизительно одинаковая «погрешность» (в сравнении с blosum62) и соотвестсвие знаков. Этот метод расчета окажется самым рациональным при выполнении 3его пункта задания.

    Итог (повторюсь, все расчеты можно найти на листах файла block_pairs.xls):
    Результаты расчета2 (вес замены) Результаты расчета3 (вес замены) Пара а.о. Значения из blosum62
    6 4 D-D 6
    1 0 D-N 1
    2 0 D-H -1

  3. Вычисление весов замен аминокислот на основе большой выборки.

    Аналогичным образом вычисляю веса аминокислотных замен для трех пар аминокислот на основе 200 блоков из банка данных BLOCKS. Данные с блоками взяты из blocks_200.txt. Частоты аминокислотных остатков берутся в AAfreq.txt.

    Результаты расчета2 (вес замены) Результаты расчета3 (вес замены) Результаты расчета4 (большая выборка) Результаты расчета5 (большая выборка) Пара а.о. Значения из blosum62
    6 4 6 5 D-D 6
    1 0 4 0 D-N 1
    2 0 2 0 D-H -1

    РАСЧЕТ 4: метод подбора основания логарифма не увенчался успехом – слишком разные получаются значения с blosum62 (что и неудивительно: хотя блоков 200, но рассматриваются только 3 пары а.о.). Выход из сложившейся ситуации: рассмотреть не 3 пары, а все пары с аспарагиновой кислотой.

    Тогда основание логарифма составит 1,251 (по совпадению с blosum62 по паре аспарагиновая к-та – аспаратиновая к-та). В итоге получилось, что совпадающих весов – только 2 (пары D-D, D-C).

    В общем-то (к моему удивлению!) результаты расчетов для большой выборки в пределах 3х пар оказались хуже, чем при расчете из одной выборки. Объяснить это я могу тем, что в таком случае сложнее удачно подобрать основание логарифма для получения большего числа совпадений. Хотя и основание 1,251 дает не самые плохие результаты: 2 «идеальных» совпадений + в 32% соответствие знаков показателей веса. Однако без неудач не бывает побед - именно "нелучшие" результаты и явные несоответствия расчета 4 стимулировали меня обратить внимание на статью St.Henikoff, J.G.Henikoff и предложенные в ней формулы.

    РАСЧЕТ 5: метод St.Henikoff, J.G.Henikoff (назовем его так для ясности) дает гораздо более качественные результаты. Объясняется это тем, что, во-первых, выборка существенно больше (по сравнению с пунктом 2); во-вторых, методика, предложенная в статье, значительно снижает число ошибок.

    Используемые формулы: W=log2 (Qij / (pi * pj)), если i=j и W=log2 (Qij / (2pi * pj)), если i≠j.

    Итак, полных совпадений (выделены сиреневым цветом) – 6; число близких значений (в пределах +/- 1 с сохранением знака; выделение бледно-желтым) – 11; соответствие знаков – в 90% случаях. Отлично!

    Результаты – см. файл block_pairs.xls лист blocks_200.

*** Оригинальную (вернее даже черновую...) версию протокола с более подробными рассуждениями (там, в частности, упоминается и о способе "расчет1", и о его несостоятельности...) можно посмотреть здесь.


©NADEZDA TUKHTUBAEVA,2006