Выравнивания и другое

Задание 1.

Для этого задания выравнивались E субъединицы АТФазы трех бактерий: Acaryochloris marina (ATPE_ACAM1), Acetobacterium woodii (ATPE_ACEWD) и Acinetobacter baylyi (ATPE_ACIAD).

Использовались Muscle, ClustalW, Mafft (strategy: FFT-NS-2)со стандартными параметрами (сверху вниз соответственно).

Объект 1. Три различия в выравниваниях. Первое различие возникает в выравнивании Mafft, дальнейшее выравнивание сдвигается

Таблица 1. Различия выравниваний подробно
# Muscle ClustalW Mafft Описание
1
-
F(55)
L(54)
P(53)
F(55)
L(54)
-
F(55)
-

Muscle предпочел вставить пропуск вместо выравнивания Pro и Phe, которые сильно различяются. Видимо, штраф за гжп больше оказался у ClustalW. В окресности этой вставки произошла вставка гэпов в Mafft, из-за чего это выравнивание имеет мало общего с двумя другими. Это произошло из-за "грубой" стратегии по умолчанию, использованной Mafft.

2
A(61)
T(64)
L(63)
A(61)
T(64)
L(63)
K(55)
T(64)
T(58)

Здесь видно, как из-за вставок гэпов Mafft выравнивает совсем другие остатки. Другие выравнивания идентичны в этой точке

3
R(120)
E(121)
S(122)
R(120)
A(118)
A(119)
E(107)
R(115)
A(116)

В конце выравнивания Muscle и ClustalW все же начинают расходиться. Это следствие гэпов в районе 110 остатка. Mafft по-прежнему оригинален.

Самое правдоподобное, на мой взгляд, выравнивание – Muscle. У него наименьшее количество гэпов, Все они расположены в довольно вариабельных участках.

Задание 4.

В этом задании использовался набор данных о нападениях акул (src: Kaggle).

В этой задаче признаки упорядочены, это ее основное отличие от задачи в примере.

Таблица 2. Число нападений. Пол и смертельный исход
Летально\Пол М Ж Сумма
Л 1209 110 1319
НЛ 3460 476 3936
Сумма 4669 586 5255

Коэффициент правдоподобия, использованная формула:

\begin{equation} S_{l,s}=100 \times \ln{(\frac{N_{l,s}}{N_l \times N_s} \times N)} \end{equation}

Например:

\begin{equation} S_{l,m}=100 \times \ln{(\frac{1209}{1319 \times 4669} \times 5255)} \end{equation}
Таблица 3. Коэффициент правдоподобия
F M
N 8.111309 -1.066130
Y -29.053329 3.115479
Таблица 4. Приведенные к целым
F M
N 8 -1
Y -29 3

© Бушмакин Илья, 2018