Сравнение программ выравнивания

Выбираем программы

Были выбраны следующие программы:

  • muscle потому что он есть и на kodomo и в jalview и будет возможность сравнить версии выравнивания
    muscle -align PF05591.fa -output muscle.fasta
  • prank потому что она зарекомендовала себя как плохая - выравнивание с низким весом относительно "идеальных" и долгое время обработки запроса. Интересно сравнить её с другими, опробовав на нашем домене.
    prank -d=PF05591.fa -o=prank.fasta
  • MSAProbs потому что она новее двух указанных и по идее должна дать выравнивание с наибольшим весом.
  • Программу prank мы берём как "плохую", а MSAProbs как "хорошую", поэтому сравним с ними полюбившуюся нам по прошлым практикумам программу muscle

    Для сравнения была использована программа написанная Никой Bratz .

    MUSCLE и MSAProbs

    файл Jalview с выравниванием

    Число последовательностей: 84
    Длина выравнивания MUSCLE: 170
    Длина выравнивания MSAProbs: 167
    Процент совпадающих колонок в первом выравнивании: 87.65 %
    Процент совпадающих колонок во втором выравнивании: 89.22 %
    Число совпадающих блоков: 6

    Совпадающие блоки при сравнении MUSCLE и MSAProbs:

    MUSCLE MSAProbs Длина
    1 1-15 1-15 15
    2 18-39 18-39 22
    3 45-51 45-51 7
    4 55-90 55-90 36
    5 100-162 97-159 63
    6 164-166 161-163 3

    Совпадающие колонки помимо блоков:
    (42,42)= (42,42)
    (53,53) = (53,53)
    (170,170) = (167,167)

    Выравнивание MSAProbs короче, это было достигнуто за счёт меньшего количества гэпов. Также MSAProbs не допускает много колонк сгруппированных по 1-3, окруженные гэпами. Можно уверенно сказать, что MSAProbs выровнял лучше.

    MUSCLE и PRANK

    файл Jalview с выравниванием

    Количество последовательностей: 84
    Длина выравнивания MUSCLE: 170
    Длина выравнивания Prank: 190
    Процент совпадающих колонок в первом выравнении: 77.65 %
    Процент совпадающих колонок во втором выравнении: 69.47 %

    Совпадающие блоки при сравнении MUSCLE и PRANK:

    MUSCLE Prank Длина
    1 1-14 1-14 14
    2 17-36 17-36 20
    3 50-61 54-65 12
    4 64-84 68-88 21
    5 102-162 119-179 61
    6 164-165 181-182 2

    PRANK справился хуже muscle. Участок 89-118 сделан очень плохо. PRANK сделал 10 лишних гэпов. Действительно плохая программа для множественного выравнивания.

    Также можем заметить, что количество совпадающих блоков равно, но с MSAProbs их длина больше.

    Выравнивание по совмещению структур

    Для семейства установлены 3D структуры больших трубок из белковых комплексов, не видим больльшого смысла в том чтобы пытаться их совместить. Мы выбрали другое семейство - PF17887 Jak1 pleckstrin homology-like domain. Это домен который имеет отношение к янус-киназным рецепторам, которые распознают молекулы инсулина.

    Сопоставлялись следующие белки:
    5l04 - STRUCTURE OF INTERFERON LAMBDA 1 RECEPTOR WITH HUMAN KINASE JAK1
    6e2p - Structure of human JAK2 FERM/SH2 in complex with Leptin Receptor
    4po6 - Crystal structure of the human TYK2 FERM and SH2 domains with an IFNAR1 intracellular peptide

    janus
    Рис. 1 Совмещение 3D структур белков: оранжевый - 5L04, синий - 6E2P, зелёный - 4PO6

    Выравнивание

    Число последовательностей: 3
    Длина структурного выравнивания: 506
    Длина выравнивания MUSCLE: 503
    Процент совпадающих колонок в первом выравнении: 64.23 %
    Процент совпадающих колонок во втором выравнении: 64.61 %
    Число совпадающих блоков: 16

    Структурное выравнивание MUSCLE Длина
    3-8 3-8 6
    110-133 109-132 24
    142-144 141-143 3
    146-170 145-169 25
    174-175 173-174 2
    177-214 176-213 38
    217-218 216-217 2
    224-250 223-249 27
    267-270 266-269 4
    276-288 274-286 13
    295-300 292-297 6
    304-320 301-317 17
    324-397 321-394 74
    399-400 396-397 2
    403-422 400-419 20
    449-506 446-503 58

    Как можно понять из таблицы и файла Jalview, больше всего выравнивания отличаются на промежутке от 8 до 109 позиции. Здесь заметно, что у выравнивания muscle больше высоко идентичных колонок.

    сравнение
    Рис. 2 Сравнение участка выравниваний: 3D сверху, MUSCLE снизу

    Описание MUSCLE

    MUltiple Sequence Comparison by Log-Expectation - MUSCLE использует Итеративное рафинирование. Вкратце его можно поделить на 3 этапа:

  • Построить множественное выравнивание
    Попарное сравнение последовательностей:
    Сначала вычисляются все попарные расстояния (меры сходства) между последовательностями с помощью быстрого эвристического метода (например, k-mer counting). На основе попарных расстояний строится дерево, определяющее порядок добавления последовательностей в выравнивание. Последовательности добавляются в множественное выравнивание одна за другой, начиная с наиболее похожих пар.
  • Дерево делится на две части, и подвыравнивания оптимизируются итеративно.
  • Перевыровнять две группы. Повторить выравнивани по группам
  • muscle