Информационное содержание
С термином "информационное содержание" есть значительная путаница. Для события, происходящего с вероятностью p, можно вычислить его информационное содержание (information content) <<latex($I=-\log(p)$)>>.
Если мы имеем дело со случайной величиной x, которая принимает значения x1, x2, ..., xn с вероятностями p1, p2, ..., pn, то информационное содержание x само является случайной величиной <<latex($I(x)=-\log(p(x))$)>>, её еще называют собственной информацией x.
Информационной энтропией случайной величины x называют математическое ожидание информационного содержания x. Тут мы и получаем формулу из презентации (математическое ожидание дискретной случайной величины равно сумме произведений значений случайной величиный на соответствующие вероятности).
<<latex($$H(x)=\sum_i{-\log(p_i)\cdot p_i}=-\sum_i{p_i\cdot\log(p_i)}$$)>>
Обратите внимание, что в терминах выравниваний и позиционных матриц, и информационная энтропия, и информационное содержание определены только для колонки целиком. Величины <<latex($-p_i\cdot\log(p_i)$)>> сами по себе являются лишь взвешенными на вероятность значениями собственной информации для отдельных исходов (исходами являются разные нуклеотиды или аминокислоты).
Отсюда получаем, что информационная энтропия (или среднее информационное содержание) колонки выравнивания, в которой встречается только одна буква, равно нулю. Максимальной информационной энтропией (или средним информационным содержанием) обладает колонка, все буквы в которой встречаются с равными вероятностями.
Когда мы описываем биологический сигнал, такое определение среднего информационного содержания колонки получается контр-интуитивным. Дело в том, что теория информации имеет дело с источниками и их кодированием. Там такое определение удобно – чем больше среднее информационное содержание источника, тем больший объем информации он способен генерировать. Но в случае описания биологических сигналов нам интересно не это. Нам интересно, на сколько исследуемый сигнал не является неопределенным, другими словами, на сколько часто в случайной последовательности будет встречаться то, что мы не сможем отличить от нашего сигнала. Именно такое уменьшение неопределенности и назывется "информационным содержанием" сигнала в рамках текущего блока о поиске сигналов. Есть разные подходы к его определению, которые отличаются тем, как оценивается исходное "отсутствие" информации (т.е. неопределенность, энтропия) до того, как мы узнали частоты букв в колонке.
Первый подход – сравнить энтропию колонки с максимально возможной энтропией для заданного алфавита, то есть с 2 битами, в случае нуклеотидов. В таком случае "информационное содержание" колонки равно:
<<latex($$IC=-\sum_{ACGT}{0.25\cdot\log_2(0.25)}\,+\sum_{ACGT}{f_i\cdot\log_2(f_i)}=2\,+\sum_{ACGT}{f_i\cdot\log_2(f_i)}$$)>>.
Если фоновые частоты нуклеотидов в геноме не равны, то мы заранее имеем чуть меньше неопределенности, чем в случае равных частот. Кроме того, если даже мы соответствующим образом изменим начальную энтропию в формуле, все равно не получится честная оценка "информационного содержания". Например, пусть геном имеет сниженный GC-состав 20%. Если использовать формулу
<<latex($$IC=-\sum_{ACGT}{p_i\cdot\log_2(p_i)}\,+\sum_{ACGT}{f_i\cdot\log_2(f_i)}$$)>>,
то "информационные содержания" для колонки, содержащей только A, и для колонки, содержащей только G, получатся равными. Однако в геноме A встречается значительно чаще, чем G, поэтому правильное "информационное содержание" колонки из G должно быть выше. Поэтому правильнее будет использовать расхождение Кульбака--Лейблера (оно же расстояние или дивергенция Кульбака--Лейблера, оно же относительная энтропия) – это некоторая величина, показывающая, как сильно отличаются по информационному содержанию две случайные величины, определенные на одном пространстве исходов:
<<latex($$D_{KL}(f,p)=-\sum_{ACGT}{f_i\cdot\log_2(p_i)}\,+\sum_{ACGT}{f_i\cdot\log_2(f_i)}=\sum_{ACGT}{f_i\cdot\log_2\frac{f_i}{p_i}}$$)>>.
Относительная энтропия обладает многими свойствами информационной энтропии. Можно заметить, что если в качестве "фонового" распределения используется равномерное, то формула превращается в формулу для IC колонки выравнивания.