1. Отличия между выравниваниями, построенными разными программами
Для сравнения были взяты белки, гомологичные (?) белку cI бактериофага лямбда (cI - глобальный репрессор, приводящий к лизогении ). Было построено множественное выравнивание при помощи программы muscle двенадцати вирусных белков с мнемониками RPC1 (или REPC), после чего были удалены все последовательности, кроме принадлежащих бактериофагу лямбда и фагу P22. Затем эти две последовательности подверглись глобальному (программа needle) и локальному (программа water) выравниваниям. Как оказалось, локальное выравнивание с точки зрения предсказания гомологичных осатков ничем не отличается от глобального (т.е. локальное является подвыравниванием глобального). Последовательности имеют консервативный блок (Ser33 - Val48 в бактериофаге лямбда), что имеет биологический смысл, поскольку на 30-49 остатки, согласно аннотации, приходится ДНК-связывающий участок (cI - регулятор транскрипции, он должен уметь связываться с ДНК). Этот блок находят все три программы. Справа от данного блока наблюдаем неконсервативный участок, который water просто выкидывает, а остальные программы трактуют по-разному: muscle видит больше инделей, что, скорее всего, является ошибкой, однако и needle вряд ли отражает истинный ход событий: слишком непохожие участки. Более интересен участок слева от консервативного блока: в случае needle и water в начале (Ser2 - Lys6) имеем консервативный блок, затем большой индель (до Arg18), затем полуконсервативный участок (Leu19-Leu32), гэп и уже описанный хорошо выравнивающийся блок. Muscle строит выравнивание по-другому: большой индель он как бы разбивает на два (в самом начале и от Glu29 до Gly31), гэп перед консервативным блоком убирается, консервативный участок в начале теряется, участок Leu19 - Leu32 выравнивается хуже. Мне кажется, выравнивания, построенные water и needle, выглядят более правдоподобно, так как один индель более правдоподобен, чем два, и цельный блок Leu18 - Val48 (почти цельный, с одним гэпом) выглядит более естественно.
Ссылка на проект с выравниваниями
3. Ориентированный граф для построения оптимального локального выравнивания с линейными штрафами за гэпы
Для лучшего усвоения курса зоологии позвоночных построим оптимальное локальное выравнивание лошади и кошки.
Составим следующую таблицу:
В каждую клеточку будем записывать число по алгоритму Смита-Ватермана:
Здесь F(i,j) - число в клетке (i,j), обозначающее вес выравнивания. d - штраф за гэп, g - вес пары из матрицы весов.
Для сопоставления букв используем такую матрицу (С - согласная буква, Г - гласная):
Отличие от глобального выравнивания состоит в том, что мы извлекаем такой отрезок выравнивания, чтобы достигался максимальный вес: после завершения алгоритма найдём максимальное число и путь к нему, причём возвращаться мы должны не в самое начало, а до того момента, пока не встретим 0.
Проделав описанные операции, получаем:
Итак, орграф, соответствующий оптимальному локальному выравниванию:
Выравнивание, соответственно (выделено цветом):
4. Матрица весов дружелюбности
В зрительном зале 10 рядов по 10 мест, из которых 60 занимают женщины и 40 - мужчины. Вероятность обнаружить на любом случайно выбранном месте женщину составляет 0,6; мужчину - 0,4. Следующая таблица иллюстрирует расчёт веса дружелюбности (все формулы для расчётов взяты из презентации, вес расчитывался с коэффициентом λ = 10).
Ожидаемое количество пар | Наблюдаемое количество пар | p пары | L пары (склонность сидеть рядом) | Вес дружелюбности | |
ММ | 14,4 | 4 | 0,04 | 0,25 | -20 |
ЖЖ | 32,4 | 14 | 0,16 | 0,44 | -12 |
МЖ | 21,6 | 30 | 0,33 | 1,67 | 7 |
ЖМ | 21,6 | 42 | 0,47 |
Вывод из этого можно сделать такой: мужчины недружелюбны по отношению друг к другу, чуть менее недружелюбны друг к другу женщины, зато женщины дружелюбны к мужчинам и наоборот.
© Быкова Даша, 2018