Учебная страница курса биоинформатики,
год поступления 2015
Словарь терминов (ЕА, ААл)
Тут приведен список терминов, которые употребляются в третьем блоке. Следует учитывать, что терминология в этой области науки не является общепринятой. Я предлагаю использовать эти слова в указанном здесь значении, тогда мы можем с вами понимать друг друга. Но это не значит, что все биоинформатики планеты Земля понимают эти термины именно так. В скобках приведены возможные альтернативные понимания. ЕА
Точечная мутация (замена) - эволюционное событие, состоящее в изменении одной аминокислоты на другую.
Совпадение (match) - совпадение аминокислот в выравнивании (например, лизин в одной и той же колонке в разных последовательностях). Может быть результатом того, что в ходе эволюции в этой позиции не было замен. Но может быть результатом случайности - см. задание про выравнивание негомологичных последовательностей.
Несовпадение (mismatch) - несовпадение аминокислот. Может быть результатом эволюционной замены или ошибочно построенного выравнивания.
Вставка (insertion) - эволюционное событие, состоящее в добавлении новой аминокислоты (или нескольких) в середину последовательности.
Делеция (deletion) - эволюционное событие, состоящее в удалении одной или нескольких аминокислот.
Индель (indel) - вставка или делеция. Этот термин используется по той причине, что во многих случаях нельзя точно сказать, какое именно событие произошло. Если какой-то участок в одних последовательностях есть, а в других его нет, то можно представить как минимум два сценария. Либо этот участок был у предковой последовательности, но у некоторых современных он делетировался, либо наоборот, у предковой последовательности его не было, но у некоторых современных последовательностей мы видим вставку.
Гэп (гэп) - способ изобразить индели в выравнивании. Если какой-то участок есть в одних последовательностях, но отсутствует в других, то на этом месте изображается требуемое количество символов '-'. Несколько подряд идущих символов гэпа - это и есть гэп. (За пределами нашего курса можно встретить альтернативное определение, при котором каждый отдельный символ гэпа называется гэпом. Но только за пределами нашего курса!) Важно понимать, что гэп не означает разрыва последовательности - между началом и концом гэпа имеется вполне нормальная пептидная связь.
Абсолютно консервативная позиция (колонка) выравнивания - та, в которой во всех последовательностях один и тот же остаток.
Консервативная позиция выравнивания - та, в которой в большинстве последовательностей один и тот же остаток; измеряется в процентах, можно сказать "позиция консервативна на 70%"
Абсолютно функционально консервативная позиция - та, в которой во всех последовательностях остаток из одной и той же группы. Примеры групп: (I, L, V, M); {S, T); (W, F, Y); (R, K); (E, D); (N, Q). При разных параметрах программы могут получаться другие группы. Например, (E, Q) и (N, D). См. разные раскраски в JalView
Гомология аминокислотных остатков из последовательностей родственных белков - происхождение их кодонов от одного кодона гена - общего предка генов данных белков. На практике строго доказать гомологичность остатков невозможно. Да и теоретически некоторые эволюционные события могут не укладываться в это определение (придумайте какие!), но они редки. Поэтому о гомологичности остатков судят по сходству участков последовательностей, их содержащих.
Блок это прямоугольник в выравнивания, для которого предполагается гомология между остатками из всех последовательностей, входящих в блок, для каждой колонки блока. Значит, фрагменты последовательностей, входящих в блок, должны быть похожи, т.е. блок должно содержать много абсолютно консервативных или функционально консервативных позиций. В блоке не должно быть гэпов. Колонки блока, в которых стоят гэпы во всех последовательностях, конечно, не в счёт.
Вертикальный блок это блок, в который входят все последовательности: прямоугольник должен быть максимальной высоты.
Блок не может содержать гэпов, так как иначе у каких-то остатков нет гомологов в других последовательностях.
Блок не может быть коротким, так как совпадение коротких последовательностей может быть случайным. Для ориентировки: блок из пяти колонок с тремя абсолютно консервативными позициями и включающий более трех разных последовательностей уже можно считать достоверным. Точных критериев достоверности нет. В нашем курсе будем пользоваться следующим техническим определением:
Вертикальный блок это участок множественного выравнивания, обладающий следующими свойствами: a. Не содержит гэпов. b. Длина - не менее 4 колонок. c. Первая и последняя колонки - абсолютно консервативны или абсолютно функционально консервативны. d. Процент абсолютно консервативных колонок больше ... 35% e. Не содержит более .... 10 колонок, не являющихся абсолютно консервативными или абсолютно функционально консервативными, подряд. e. Не может быть расширен без нарушения предыдущих свойств.
Многоточие перед числами выражает мою неуверенность в их правильности. Дело в том, что точных оценок и нет. Нужен опыт. ААл
Чем длиннее блок, тем больше консервативных позиций в нем нужно найти, чтобы поверить в его достоверность (почему?).
Чем меньше последовательностей в блоке, тем больше консервативных позиций в нем нужно найти, чтобы поверить в его достоверность (почему?).