1.Невыравненные последовательности вирусных дельта-антигенов (34 штуки) из банка Swiss-Prot.* Мы извлекли их из базы данных, обозначив в графе Taxonomy "deltavirus" а в графе Description - "delta". Глядя на последовательности, предположим два места возможного положения гэпов (буквально, что первым попалось на глаза). Иллюстрация Множественное выравнивание, сделанное программой muscle * Похоже, мы в какой-то степени угадали только со вторым гэпом, и всё равно программа сгруппировала остатки иначе. Иллюстрация 2.Множественное выравнивание белка AHPF_Ecoli и семи его вероятных гомологов (найдены с помощью программы Blast) Q67QU3.1|FENR_SYMTH 49% сходства E-value 2e-22 Q2JFM8.1|FENR_FRASC 46% сходства E-value 3e-15 Q5HRY2.1|AHPF_STAEQ 70% сходства E-value 6e-148 P26829.1|DHNA_BACYN 75% сходства E-value 3e-173 P42974.2|DHNA_BACSU 56% сходства E-value 1e-166 P80880.3|TRXB_BACSU 55% сходства E-value 2e-45 P23160.1|R34K_CLOPA 54% сходства E-value 1e-29 выполненное программой muscle. * Консервативные участки (самые яркие примеры) - номера позиций выравнивания: 218-220; 222-225; 249-252; 326-328; 369-377; 392-394; 498-503 - номера соотв. позиций AHPF_Ecoli: 217-219; 221-224; 246-249; 318-320; 358-366; 381-383; 483-488 Самые близко расположенные небольшие консервативные участки можно объединять в один консервативный "блок". Участков выравнивания, очевидно недостоверных с биологической точки зрения (с частыми гэпами и одиночными выравненными колонками), мало: как правило, если не выравнены все последовательности, найдены соответствия хотя бы в некоторых из них. Мне кажется подозрительным участок выравнивания в районе 302-312. Гэпы неровные, похожие для некоторых белков участки проигнорированы. Этот фрагмент выравнивания неверен с биологической т.з. Выравнивание тех же последовательностей, сделанное программой mafft. * В отличие от muscle здесь выравнены начальные метионины, что не имеет особого биологического смысла, а вот лишний гэп мы получаем. Спорный момент: mafft предпочла сопоставить друг другу глицины (обозначены чёрным), а не V, I и L, как сделала muscle. Хотя, не представляя структуры белка, мы можем только строить предположения. В данном конкретном случае глицин может быть важен, как "шарнир", и если мы построим выравнивание большего числа последовательностей и отметим эту же тенденцию, то это будет куда важнее с биологической точки зрения. В целом консервативные участки те же. Выравнивание в исполнении программы edialign пакета EMBOSS. * Похоже на mafft за исключением кое-каких гэпов на участках с низкой консервативностью. Больше можно сказать об оформлении. Edialign пишет названия белков в самой таблице и выделяет разным регистром остатки в последовательности: заглавные буквы - собственно выравненные, а прописные - случайно попавшие в колонку при сдвигах и не претендующие на гомологичность. 3.Другие программы множественных выравниваний: -consambig выделяет только консервативные остатки (разным регистром - большими буквами те, что встречаются во всех последовательностях, маленькими - в большинстве) - удобно, если ищешь именно консервативные позиции. >EMBOSS_001 mxxxxxxkxqlxxxxzxxxxxxxxxxxxxxxxxsxxxxxlxxexaxxsxxxxxxxxxxxp vrxpsfxxxxxgxxxgxxfagxplghefxslvlajlxxxgxxxkxxqxxjxqxxxjxgxx xfexxxslxcxxcpdvvqalnxmsvjnpxixhtxidgxxxxxexxxxbxmxvpxvxxbgx xfxxgrmtxxxixxxxxxxxxkraaxexxxxxxxdXXXXGXGPXXXXXXXYXXXXXXXXX XXXXXxxxGGQXXXXypeXXXXBXXXXXXXXXXXXXXXXXXXXXXXXXXxXXXXxxxXxx xxxxxxXxXXXXXXXXXXXXXXXXXXXXXGXgxfXXXXXXXXXXXXxxXXXXXXXXXXXg XXXXXXXXXVXGGGBSXXXXXXXXXXXXXXXTXXXXXXXXXAXXXXXxXXXXXXXVXXXX XXXXXXXXXXXxXkXXXXXXXXXXXXXXXXXXXXXXXXXXGXXXXXgXXXXXXXXXxXXX XXXXBXXXXTXXXXXXAAGDXXXXXXXXXXXXXXXGXXAXXxxxxyxXXXxxxxxxxxxx xfpghssxxxxxg -distmat выводит таблицу "эволюционных расстояний" для попарных выравниваний: в ячейках - количество замен на 100 остатков (ещё один способ оценки степени гомологии и построения эволюционных деревьев) Distance Matrix --------------- Uncorrected for Multiple Substitutions Gap weighting is 0.000000 1 2 3 4 5 6 7 8 0.00 42.66 42.72 46.35 67.97 67.97 72.13 75.60 AHPF_ECOLI 1 0.00 16.31 35.97 69.58 66.45 72.90 75.84 DHNA_BACYN 2 0.00 36.76 67.44 67.76 72.33 76.04 DHNA_BACSU 3 0.00 67.77 66.67 75.00 75.35 AHPF_STAEQ 4 0.00 56.81 71.01 72.01 TRXB_BACSU 5 0.00 72.82 74.13 R34K_CLOPA 6 0.00 56.88 FENR_SYMTH 7 0.00 FENR_FRASC 8 -plotcon демонстрирует нам график среднего сходства по позициям (наглядно показывает самые "устойчивые" мотивы) * |