Учебная страница курса биоинформатики,
год поступления 2014
Словарь терминов (ЕА, ААл)
Тут приведен список терминов, которые употребляются в третьем блоке. Следует учитывать, что терминология в этой области науки не является общепринятой. Я предлагаю использовать эти слова в указанном здесь значении, тогда мы можем с вами понимать друг друга. Но это не значит, что все биоинформатики планеты Земля понимают эти термины именно так. В скобках приведены возможные альтернативные понимания.
Точечная мутация (замена) - эволюционное событие, состоящее в изменении одной аминокислоты на другую.
Совпадение (match) - совпадение аминокислот в выравнивании (например, лизин в одной и той же колонке в разных последовательностях). Может быть результатом того, что в ходе эволюции в этой позиции не было замен. Но может быть результатом случайности - см. задание про выравнивание негомологичных последовательностей.
Несовпадение (mismatch) - несовпадение аминокислот. Может быть результатом эволюционной замены или ошибочно построенного выравнивания.
Вставка (insertion) - эволюционное событие, состоящее в добавлении новой аминокислоты (или нескольких) в середину последовательности.
Делеция (deletion) - эволюционное событие, состоящее в удалении одной или нескольких аминокислот.
Индель (indel) - вставка или делеция. Этот термин используется по той причине, что во многих случаях нельзя точно сказать, какое именно событие произошло. Если какой-то участок в одних последовательностях есть, а в других его нет, то можно представить как минимум два сценария. Либо этот участок был у предковой последовательности, но у некоторых современных он делетировался, либо наоборот, у предковой последовательности его не было, но у некоторых современных последовательностей мы видим вставку.
Гэп (гэп) - способ изобразить индели в выравнивании. Если какой-то участок есть в одних последовательностях, но отсутствует в других, то на этом месте изображается требуемое количество символов '-'. Несколько подряд идущих символов гэпа - это и есть гэп. (За пределами нашего курса можно встретить альтернативное определение, при котором каждый отдельный символ гэпа называется гэпом. Но только за пределами нашего курса!) Важно понимать, что гэп не означает разрыва последовательности - между началом и концом гэпа имеется вполне нормальная пептидная связь.
Абсолютно консервативная позиция (колонка) выравнивания - та, в которой во всех последовательностях один и тот же остаток.
Консервативная позиция выравнивания - та, в которой в большинстве последовательностей один и тот же остаток; измеряется в процентах, можно сказать "позиция консервативна на 70%"
Абсолютно функционально консервативная позиция - та, в которой во всех последовательностях остаток из одной и той же группы (например, I, L, V, M). Группы могут задаваться разными способами (например, группу I, L, V, M можно расширить до всех гидрофобных)
Гомология аминокислотных остатков из последовательностей родственных белков - происхождение их кодонов от одного кодона гена - общего предка генов данных белков. На практике проверить гомологичность остатков невозможно (кроме лабораторных экспериментов). Да и теоретически некоторые эволюционные события могут не укладываться в это определение (придумайте какие!), но они редки. Поэтому о гомологичности остатков судят по сходству последовательностей, их содержащих.
Вертикальный блок, - участок выравнивания, на котором можно ожидать гомологию между остатками из всех последовательностей для каждой колонки. Значит, фрагменты должны быть похожи по последовательности и выравнивание блока должно содержать много абсолютно консервативных или функционально консервативных позиций.
Блок не может содержать гепов, так как иначе у каких-то остатков нет гомологов в других последовательностях.
Блок не может быть коротким, так как совпадение коротких последовательностей может быть случайным. Для ориентировки: блок из пяти колонок с тремя абсолютно консервативными позициями и включающий более трех разных последовательностей уже можно считать достоверным. Точных критериев достоверности нет. В нашем курсе будем пользоваться следующим техническим определением:
Вертикальный блок - участок множественного выравнивания не менее чем 5 последовательностей, обладающий следующими свойствами: a. Не содержит гэпов. b. Длина - не менее 4 колонок. c. Первая и последняя колонки - абсолютно консервативны или абсолютно функционально консервативны. d. Не содержит более 3 колонок, не являющихся абсолютно консервативными или абсолютно функционально консервативными, подряд. e. Не может быть расширен без нарушения предыдущих свойств.
Чем длиннее блок, тем больше консервативных позиций в нем нужно найти, чтобы поверить в его достоверность (почему?).
Чем меньше последовательностей в блоке, тем больше консервативных позиций в нем нужно найти, чтобы поверить в его достоверность (почему?).
Кластер блоков - участок выравнивания, на котором можно ожидать гомологию между любыми двумя аминокислотами, расположенными в одной колонке. Кластер, в отличие от блока, может содержать гэпы. Каждый блок либо представляет из себя отдельный кластер, либо входит в состав кластера из нескольких блоков. Помимо блоков в кластер могут входить другие участки выравнивания. Строгих общепринятых критериев тут опять нет, но в нашем курсе мы примем такое правило:
Два блока объединяются в кластер вместе с участком между ними, если все гэпы между этими блоками имеют длину, равную длине участка между ними.
На следующий год это определение стоит изменить так: 1. Убрать из списка функционально консервативных колонок "все гидрофильные", "все гидрофобные" и "все заряженные". Это приводит к неоправданному удлиннению блоков.
2. Учесть, что для толстых выравниваний критерии должны быть слабее.