Практикум 12

1. Отличия между выравниваниями, построенными разными программами

Для сравнения были взяты белки, гомологичные (?) белку cI бактериофага лямбда (cI - глобальный репрессор, приводящий к лизогении ). Было построено множественное выравнивание при помощи программы muscle двенадцати вирусных белков с мнемониками RPC1 (или REPC), после чего были удалены все последовательности, кроме принадлежащих бактериофагу лямбда и фагу P22. Затем эти две последовательности подверглись глобальному (программа needle) и локальному (программа water) выравниваниям. Как оказалось, локальное выравнивание с точки зрения предсказания гомологичных осатков ничем не отличается от глобального (т.е. локальное является подвыравниванием глобального). Последовательности имеют консервативный блок (Ser33 - Val48 в бактериофаге лямбда), что имеет биологический смысл, поскольку на 30-49 остатки, согласно аннотации, приходится ДНК-связывающий участок (cI - регулятор транскрипции, он должен уметь связываться с ДНК). Этот блок находят все три программы. Справа от данного блока наблюдаем неконсервативный участок, который water просто выкидывает, а остальные программы трактуют по-разному: muscle видит больше инделей, что, скорее всего, является ошибкой, однако и needle вряд ли отражает истинный ход событий: слишком непохожие участки. Более интересен участок слева от консервативного блока: в случае needle и water в начале (Ser2 - Lys6) имеем консервативный блок, затем большой индель (до Arg18), затем полуконсервативный участок (Leu19-Leu32), гэп и уже описанный хорошо выравнивающийся блок. Muscle строит выравнивание по-другому: большой индель он как бы разбивает на два (в самом начале и от Glu29 до Gly31), гэп перед консервативным блоком убирается, консервативный участок в начале теряется, участок Leu19 - Leu32 выравнивается хуже. Мне кажется, выравнивания, построенные water и needle, выглядят более правдоподобно, так как один индель более правдоподобен, чем два, и цельный блок Leu18 - Val48 (почти цельный, с одним гэпом) выглядит более естественно.

Ссылка на проект с выравниваниями

3. Ориентированный граф для построения оптимального локального выравнивания с линейными штрафами за гэпы

Для лучшего усвоения курса зоологии позвоночных построим оптимальное локальное выравнивание лошади и кошки.

Составим следующую таблицу:

В каждую клеточку будем записывать число по алгоритму Смита-Ватермана:

Здесь F(i,j) - число в клетке (i,j), обозначающее вес выравнивания. d - штраф за гэп, g - вес пары из матрицы весов.

Для сопоставления букв используем такую матрицу (С - согласная буква, Г - гласная):

Отличие от глобального выравнивания состоит в том, что мы извлекаем такой отрезок выравнивания, чтобы достигался максимальный вес: после завершения алгоритма найдём максимальное число и путь к нему, причём возвращаться мы должны не в самое начало, а до того момента, пока не встретим 0.

Проделав описанные операции, получаем:

Итак, орграф, соответствующий оптимальному локальному выравниванию:

Выравнивание, соответственно (выделено цветом):

4. Матрица весов дружелюбности

В зрительном зале 10 рядов по 10 мест, из которых 60 занимают женщины и 40 - мужчины. Вероятность обнаружить на любом случайно выбранном месте женщину составляет 0,6; мужчину - 0,4. Следующая таблица иллюстрирует расчёт веса дружелюбности (все формулы для расчётов взяты из презентации, вес расчитывался с коэффициентом λ = 10).

	Ожидаемое количество пар	Наблюдаемое количество пар	p пары	L пары (склонность сидеть рядом)	Вес дружелюбности
ММ	14,4	4	0,04	0,25	-20
ЖЖ	32,4	14	0,16	0,44	-12
МЖ	21,6	30	0,33	1,67	7
ЖМ	21,6	42	0,47

Вывод из этого можно сделать такой: мужчины недружелюбны по отношению друг к другу, чуть менее недружелюбны друг к другу женщины, зато женщины дружелюбны к мужчинам и наоборот.