На главную страницу второго семестра
В программе Excel строки и столбцы аминокислотных замен сгруппированы по следующим группам: A, G, S, T; N, D, E, Q; K, R, H; M, I, L, V; F, Y, W; P; C. Подсчитан средний вес замен в треугольной матрице замен внутри первой группы, аналогично для второй, и подсчитан средний вес замен в матрице замен между этими двумя группами. Средний вес замен в группе A, G, S, T равен 0, средний вес замен в группе N, D, E, Q равен 0,2, cредний вес замен в группе A, G, S, T равен -0,8125. Заметно, что наивысший вес - во второй группе, видимо, это связано с высоким сходством молекулярного строения, как следствие, физико-химических свойств входящих в нее остатков (это 2 гомологичные дикарбоновые аминокислоты и их амиды). Объединение первой группы более искусственно, но аминокислоты, входящие в нее (имеющие некрупный радикал), проявляют больше сходства между собой, чем с аминокислотами второй группы. С расчетами можно ознакомиться здесь. На сайте базы данных BLOCKS по AC P77407 мною найден блок, не относящийся к моему белку. По FCTA_ECOLI ничего нет, поэтому я обсчитывала то, что есть. Матрицу, выданную программой pairs_count.exe сделала треугольной, чтобы при расчете не мешали дублирующиеся случаи, подсчитала частоты замен A-A, A-C, A-D, поделила на известные частоты аминокислотных остатков, взяла натуральный логарифм (почему натуральный? Так меньше расхождение с данными BLOSUM 62. Оно, конечно, все равно велико, что еще раз доказывает, что заслуживающую доверия статистику можно создать только на основании большой выборки), удвоила результат и округлила до целого. С полученными весами и использованными данными можно ознакомиться здесь. Для замены A-A у меня получился вес 5, в BLOSUM 62 также 5, для замены A-C у меня получился вес 4, в BLOSUM 62 -1, для замены A-D у меня получился вес 0, в BLOSUM 62 -3.