Практикум 13

Сравнение выравниваний одних и тех же последовательностей разными программами

Для сравнения множественного выравнивания были выбраны белковые последовательности (seed) из семейства PF00053. Было сделано три выравнивания - muscle, mufft, tcoffee. Сравнение проводилось программ mufft и tcoffee с muscle, выбранным в качестве референсного. Для сравнения использовалась программа MACHO одногруппников.

Результаты сравнения программ Muscle и MAFFT соответсвенно:

Длина первой последовательности: 94

Длина второй последовательности: 115

Процент совпадающих колонок для первой последовательности: 15,96 %

Процент совпадающих колонок для второй последовательности: 13,04 %

Таблица 1. Сравнение.
Block Alignment_1 Alignment_2
1 1-3 1-3
2 61-72 76-87

Результаты сравнения программ Muscle и tcoffeе соответсвенно:

Длина первой последовательности: 94

Длина второй последовательности: 107

Процент совпадающих колонок для первой последовательности: 21,28 %

Процент совпадающих колонок для второй последовательности: 18,69 %

Таблица 2. Сравнение.
Block Alignment_1 Alignment_2
1 1-3 1-3
2 55-55 68-68
3 58-72 71-85
4 94-94 107-107

Исходя из результатов, полученных с помощью программы MACHO, выравнивания оказались неодинаковыми. Выравнивание с помощью tcoffee оказалось более схожим с референсным, сделанным с помощью программы muscle.

Ссылка на проект

Построение выравнивания по совмещению структур и сравнение его с выравниванием MSA

Для сравнения пространственных структур были взяты белки из семейства PF00053 c PDB ID: 2y38 (LAMININ ALPHA5 CHAIN N-TERMINAL FRAGMENT), 4ove (X-ray Crystal Structure of Mouse Netrin-1), 8edk (Structure of C. elegans UNC-6 LamN and EGF domains). В начале было проведено совмещение сруктур с помощью сайта PDB, на его основе сделано множественное выравнивание и после множественное выравнивание с помощью программы Muscle. После два множественных выравнивания сравнивались с помощью программы MAHCO.

img1
Рисунок 1. Сравнение
img1
Рисунок 2. Совмещение структур.

Выравнивания оказались похожими (73% схожести). Самое крупное различие находится в промежутке 427-460/423-445 в выравниваниях структурном и с помощью muscle соответсвенно. Данные различия могут связаны с тем, что белок с ID 2y38 имеет всего 2 структурных домена (Laminin-type EGF domain; Laminin, N-terminal), совпадающих и с другими двумя белками, в то время как 4ove имеет третий домен Galactose-binding-like domain, 8edk - EGF-like domain.

img1
Рисунок 3. Разница в выравниваниях.
Ссылка на проект

Краткое описание программы MAFFT

MAFFT (multiple alignment using fast Fourier transform) - программа для создания множественного выравнивания последовательностей аминокислоттных, либо же нуклеотидных.

В данный момент программа имеет несколько алгоритмов и режимов работы, изначально при выпуске в 2002 году она имела только алгоритм прогессивного выравнивания с группировкой последовательностей с помощью преобразования Фурье.

Алгоритм работы

Программа MAFFT имеет множество различных методов, адаптированных под конкретные задачи. Методы, ориентированные на Точность - L-INS-i (вероятно, наиболее точный метод; рекомендуется для последовательностей длиной менее 200), G-INS-i (подходит для последовательностей одинаковой длины; рекомендуется для последовательностей длиной менее 200), E-INS-i (подходит для последовательностей, содержащих большие невыравниваемые участки; рекомендуется для последовательностей длиной менее 200). Методы, ориентированные на скорость - FFT-NS-i (метод итеративной доработки; только два цикла), FFT-NS-2 , NW-NS-i, NW-NS-PartTree-1 (рекомендуется для последовательностей от ~10 000 до ~50 000).

Список литературы

  1. Источник 1
  2. Источник 2
  3. Като К., Мисава К., Кума К., Мията Т. MAFFT: новый метод быстрого множественного выравнивания последовательностей на основе быстрого преобразования Фурье. Nucleic Acids Res. 2002 Jul 15;30(14):3059-66. doi: 10.1093/nar/gkf436. PMID: 12136088; PMCID: PMC135756 [Ссылка].