1. Отличия между выравниваниями, построенными разными программами

Для сравнения были взяты белки, гомологичные (?) белку cI бактериофага лямбда (cI - глобальный репрессор, приводящий к лизогении ). Было построено множественное выравнивание при помощи программы muscle двенадцати вирусных белков с мнемониками RPC1 (или REPC), после чего были удалены все последовательности, кроме принадлежащих бактериофагу лямбда и фагу P22. Затем эти две последовательности подверглись глобальному (программа needle) и локальному (программа water) выравниваниям. Как оказалось, локальное выравнивание с точки зрения предсказания гомологичных осатков ничем не отличается от глобального (т.е. локальное является подвыравниванием глобального). Последовательности имеют консервативный блок (Ser33 - Val48 в бактериофаге лямбда), что имеет биологический смысл, поскольку на 30-49 остатки, согласно аннотации, приходится ДНК-связывающий участок (cI - регулятор транскрипции, он должен уметь связываться с ДНК). Этот блок находят все три программы. Справа от данного блока наблюдаем неконсервативный участок, который water просто выкидывает, а остальные программы трактуют по-разному: muscle видит больше инделей, что, скорее всего, является ошибкой, однако и needle вряд ли отражает истинный ход событий: слишком непохожие участки. Более интересен участок слева от консервативного блока: в случае needle и water в начале (Ser2 - Lys6) имеем консервативный блок, затем большой индель (до Arg18), затем полуконсервативный участок (Leu19-Leu32), гэп и уже описанный хорошо выравнивающийся блок. Muscle строит выравнивание по-другому: большой индель он как бы разбивает на два (в самом начале и от Glu29 до Gly31), гэп перед консервативным блоком убирается, консервативный участок в начале теряется, участок Leu19 - Leu32 выравнивается хуже. Мне кажется, выравнивания, построенные water и needle, выглядят более правдоподобно, так как один индель более правдоподобен, чем два, и цельный блок Leu18 - Val48 (почти цельный, с одним гэпом) выглядит более естественно.

Ссылка на проект с выравниваниями

3. Ориентированный граф для построения оптимального локального выравнивания с линейными штрафами за гэпы

Для лучшего усвоения курса зоологии позвоночных построим оптимальное локальное выравнивание лошади и кошки.

Составим следующую таблицу:

В каждую клеточку будем записывать число по алгоритму Смита-Ватермана:

Здесь F(i,j) - число в клетке (i,j), обозначающее вес выравнивания. d - штраф за гэп, g - вес пары из матрицы весов.

Для сопоставления букв используем такую матрицу (С - согласная буква, Г - гласная):

Отличие от глобального выравнивания состоит в том, что мы извлекаем такой отрезок выравнивания, чтобы достигался максимальный вес: после завершения алгоритма найдём максимальное число и путь к нему, причём возвращаться мы должны не в самое начало, а до того момента, пока не встретим 0.

Проделав описанные операции, получаем:

Итак, орграф, соответствующий оптимальному локальному выравниванию:

Выравнивание, соответственно (выделено цветом):

4. Матрица весов дружелюбности

В зрительном зале 10 рядов по 10 мест, из которых 60 занимают женщины и 40 - мужчины. Вероятность обнаружить на любом случайно выбранном месте женщину составляет 0,6; мужчину - 0,4. Следующая таблица иллюстрирует расчёт веса дружелюбности (все формулы для расчётов взяты из презентации, вес расчитывался с коэффициентом λ = 10).

Ожидаемое количество пар Наблюдаемое количество пар p пары L пары (склонность сидеть рядом) Вес дружелюбности
ММ 14,4 4 0,04 0,25 -20
ЖЖ 32,4 14 0,16 0,44 -12
МЖ 21,6 30 0,33 1,67 7
ЖМ 21,6 42 0,47  

Вывод из этого можно сделать такой: мужчины недружелюбны по отношению друг к другу, чуть менее недружелюбны друг к другу женщины, зато женщины дружелюбны к мужчинам и наоборот.


© Быкова Даша, 2018