Задание 1.
Для этого задания выравнивались E субъединицы АТФазы трех бактерий: Acaryochloris marina (ATPE_ACAM1), Acetobacterium woodii (ATPE_ACEWD) и Acinetobacter baylyi (ATPE_ACIAD).
Использовались Muscle, ClustalW, Mafft (strategy: FFT-NS-2)со стандартными параметрами (сверху вниз соответственно).
# | Muscle | ClustalW | Mafft | Описание |
---|---|---|---|---|
1 |
- F(55) L(54) |
P(53) F(55) L(54) |
- F(55) - |
Muscle предпочел вставить пропуск вместо выравнивания Pro и Phe, которые сильно различяются. Видимо, штраф за гжп больше оказался у ClustalW. В окресности этой вставки произошла вставка гэпов в Mafft, из-за чего это выравнивание имеет мало общего с двумя другими. Это произошло из-за "грубой" стратегии по умолчанию, использованной Mafft. |
2 |
A(61) T(64) L(63) |
A(61) T(64) L(63) |
K(55) T(64) T(58) |
Здесь видно, как из-за вставок гэпов Mafft выравнивает совсем другие остатки. Другие выравнивания идентичны в этой точке |
3 |
R(120) E(121) S(122) |
R(120) A(118) A(119) |
E(107) R(115) A(116) |
В конце выравнивания Muscle и ClustalW все же начинают расходиться. Это следствие гэпов в районе 110 остатка. Mafft по-прежнему оригинален. |
Самое правдоподобное, на мой взгляд, выравнивание – Muscle. У него наименьшее количество гэпов, Все они расположены в довольно вариабельных участках.
Задание 4.
В этом задании использовался набор данных о нападениях акул (src: Kaggle).
В этой задаче признаки упорядочены, это ее основное отличие от задачи в примере.
Летально\Пол | М | Ж | Сумма |
---|---|---|---|
Л | 1209 | 110 | 1319 |
НЛ | 3460 | 476 | 3936 |
Сумма | 4669 | 586 | 5255 |
Коэффициент правдоподобия, использованная формула:
\begin{equation} S_{l,s}=100 \times \ln{(\frac{N_{l,s}}{N_l \times N_s} \times N)} \end{equation}Например:
\begin{equation} S_{l,m}=100 \times \ln{(\frac{1209}{1319 \times 4669} \times 5255)} \end{equation}F | M | |
---|---|---|
N | 8.111309 | -1.066130 |
Y | -29.053329 | 3.115479 |
F | M | |
---|---|---|
N | 8 | -1 |
Y | -29 | 3 |
© Бушмакин Илья, 2018