Были взяты множественное выравнивание (fasta-файл) гомологов белков с мнемоникой QUEC из 10 практикума, сделанное программой muscle, из которых удалили все последовательности, кроме первой и последней (fasta-файл), и оптимальное глобальное выравнивание этих двух последовательностей, найденное программой needle (fasta-файл). Некоторые наблюдаемые различия (мнемоника функции из названия последовательности опущена, оставлена только мнемоника организма):
По матрице Blosum62 оба эти сопоставления имеют одинаковую цену -2. Но вариант сопоставления muscle представляется более убедительным, поскольку ECOLI-H39 является концом консервативного блока (столбцы 40-45), и вставка в METMA нуклеотида G39 после этого блока более вероятна, чем вставка A38 внутрь блока.
Muscle даёт более убедительный результат. На самом деле это не точечное различие, а сдвиг сразу шести нуклеотидов (DSIPVP, выделены красным): из области, присутствующей у всех последовательностей множественного выравнивания в область, где у большинства из них наблюдается индель, и гомология конкретных двух последовательносей в этом участк менее вероятна, чем их гомология на участке, общем для всех последовательностей. Хотя непосредственно для валина сопоставление с валином (4) лучше, чем с серином (-2), в сумме оба варианта расположения этого шестиаминокислотного фрагмента весят одинаково (7 + штраф за индель длины 2), поэтому для программы needle они равнозначны.
Множественное выравнивание здесь не даёт однозначного преимущества, поскольку любая из вставок разрывает консервативный блок (столбцы 234-250) - или же, если начинать этот блок с 238 (где консервативность полная), то любой вариант вставки не влияет. По значению в матрице сопоставление G-I (-4) хуже, чем G-P (-2), таким образом, здесь вариант из needle предпочтительнее.
Множественное выравнивание в среднем лучше парного, поскольку учитывает при выборе другие последовательности, а значит, с меньшей вероятностью разрывает гэпами консервативные (соответственно, вероятно, функциональные) блоки, если этого можно избежать.
При помощи алгоритма BLAST были выровнены последовательности двух белков: Cystic fibrosis transmembrane conductance regulator (ID CFTR_DANRE; AC Q1LX78) и ATP-binding cassette sub-family B member 6, mitochondrial (ID ABCB6_HUMAN ; AC Q9NP58).
Получилась следующая диаграмма выравнивания:
На ней можно видеть, что большая часть обоих белков не имеет схожих участков, однако один длинный фрагмент в Q9NP58 соответствует двум фрагментам Q1LX78 одновременно. Также присутствует несколько меньших по размерам участков сходства (все они дублируют какую-то часть одного из крупных участков на одном из белков).
Лучшее локальное выравнивание из найденных:
Query 565 FDLLKEETEVKDLPGA---GPLRFQKGRIEFENVHFSYADGR-----------ETLQDVS 610
+DL E E++D+ + GP + RI+ EN + +G L+D+S
Sbjct 386 YDLSITELELQDVTASWDEGPGELLE-RIKQENKANGHHNGDAGLFFTNLYVAPVLKDIS 444
Query 611 FTVMPGQTLALVGPSGAGKSTILRLLFRFYDISSGCIRIDGQDISQVTQASLRSHIGVVP 670
+ G+ LA+ G G+GKS++L + SSG IR G+ I
Sbjct 445 LKLKKGEMLAVTGSMGSGKSSLLMTILGELVPSSGKIRHSGR-------------ISYSS 491
Query 671 QDTVLFNDTIADNIRYGRVTAGNDEVEAAAQAAGIHDAIMAFPEGYRTQVGERGLKLSGG 730
Q + TI DNI +G +T ++ +A + + + A PE +T + E GL LSGG
Sbjct 492 QTAWIMPGTIRDNILFG-LTYDEYRYKSVVKACQLEEDLAALPEKDKTPMAEGGLNLSGG 550
Query 731 EKQRVAIARTILKAPGIILLDEATSALDTSNERAI-QASLAKVCANRTTIVVAHRLSTVV 789
+K RVA+AR + + + LLD + LD + E+ I L K+ A++T I+V +++ +
Sbjct 551 QKARVALARAVYRDADLYLLDAPFTHLDIATEKEIFDKCLCKLMASKTRILVTNKIEHLK 610
Query 790 NADQILVIKDG 800
AD+IL++ +G
Sbjct 611 RADKILLLHNG 621
С выравниванием, выданным для этих последовательностей прграммой water оно даже не пересекается (по первой последовательности, т.е. query, CFTR_DANRE):
CFTR_DANRE 801 LDIYTRRLSDSTYDMTGILEEENIEACLTDEIDEIEETFETTKWNTYVR- 849
|.::...|...:|.:....|::::|. .::....:.:.|..:.|
ABCB6_HUMAN 202 LGLWAPGLRPQSYTLQVHEEDQDVER------SQVRSAAQQSTWRDFGRK 245
CFTR_DANRE 850 --------YVSNNKSLLYVLIFILFIAAIEIAGSV-AGIF------LITD 884
:...:.:|..|::..|.:..:|.|.:| ..|| |:|:
ABCB6_HUMAN 246 LRLLSGYLWPRGSPALQLVVLICLGLMGLERALNVLVPIFYRNIVNLLTE 295
CFTR_DANRE 885 EL-WREEHQRSEPNMTKHSNASSSGQTYAITVTPTSSYYILYI------- 926
:. |. ::..|.||..::.::
ABCB6_HUMAN 296 KAPWN-----------------------SLAWTVTSYVFLKFLQGGGTGS 322
CFTR_DANRE 927 --YVATSESLLAMGFFRGLPFV--HTTITISKKLHQKMLHAVLSAPMSVL 972
:|:...:.| :.|...|. ...:.|...||:..|...|.
ABCB6_HUMAN 323 TGFVSNLRTFL---WIRVQQFTSRRVELLIFSHLHELSLRWHLG------ 363
CFTR_DANRE 973 NTMKTGRIMNRFTKDMATIDDMLPLLMFDFV-QLTVVVVGCILVVSIVRP 1021
.:||.::....:..:::..:|..|:|:.: .|..:::|.|........
ABCB6_HUMAN 364 --RRTGEVLRIADRGTSSVTGLLSYLVFNVIPTLADIIIGIIYFSMFFNA 411
CFTR_DANRE 1022 YIFLAATPLAIIFIVMRKYF------------LRTGQQLKQLETEARSPI 1059
:..| |:|:.|..|. .|.....::..|.||:
ABCB6_HUMAN 412 WFGL------IVFLCMSLYLTLTIVVTEWRTKFRRAMNTQENATRARA-- 453
CFTR_DANRE 1060 FSHLIMSLKGLWTIR-----AFERQAYFEALF-HKTLNTHTATWFLYLS- 1102
:.||....|:: ::|.:.|.||:. ::.|...::...:.|:
ABCB6_HUMAN 454 ----VDSLLNFETVKYYNAESYEVERYREAIIKYQGLEWKSSASLVLLNQ 499
CFTR_DANRE 1103 ----TLRWFLFRADILFVFFFT-----LAAWIAVGTNQDKPGEIGIIICL 1143
.:...|....:|..:|.| :..::..|| .||.|
ABCB6_HUMAN 500 TQNLVIGLGLLAGSLLCAYFVTEQKLQVGDYVLFGT---------YIIQL 540
CFTR_DANRE 1144 AMLI--LGTFQWCVATS-IAVDGMMRSVDRVFKFIDLPSETPKPDKGKDS 1190
.|.: .||:...:.|: |.::.|...:....:..|||...|...:
ABCB6_HUMAN 541 YMPLNWFGTYYRMIQTNFIDMENMFDLLKEETEVKDLPGAGPLRFQ---- 586
CFTR_DANRE 1191 DLIIENVDAQADSSWPHRGQIEVRNLTVKYTEAGHAVLKNLSFSAEGRQR 1240
:|:||..|:...|.: |...|:::||:....|.
ABCB6_HUMAN 587 -----------------KGRIEFENVHFSYAD-GRETLQDVSFTVMPGQT 618
CFTR_DANRE 1241 VGILGRTGSGKSSLFNALLKLV-YTDGEISIDGVNWNKMPLQKWRKAFGV 1289
:.::|.:|:|||::...|.:.. .:.|.|.|||.:.:::.....|...||
ABCB6_HUMAN 619 LALVGPSGAGKSTILRLLFRFYDISSGCIRIDGQDISQVTQASLRSHIGV 668
CFTR_DANRE 1290 VPQKVFIFTGPLRMNLDPYG--CHSDEELWRVAEEVGLKTVIEQFPDKLD 1337
|||...:|...:..|: .|| ...::|:...|:..|:...|..||:...
ABCB6_HUMAN 669 VPQDTVLFNDTIADNI-RYGRVTAGNDEVEAAAQAAGIHDAIMAFPEGYR 717
CFTR_DANRE 1338 FQLEYGGYVLSNGHKQLICLARSILSGARILLLDEPSAHLDPVTIKVLKK 1387
.|:...|..||.|.||.:.:||:||....|:||||.::.||....:.::.
ABCB6_HUMAN 718 TQVGERGLKLSGGEKQRVAIARTILKAPGIILLDEATSALDTSNERAIQA 767
CFTR_DANRE 1388 TLRQSFSTCTILLSEHKVEPLLECQSFLMMDKG 1420
:|.:..:..|.::..|::..::.....|::..|
ABCB6_HUMAN 768 SLAKVCANRTTIVVAHRLSTVVNADQILVIKDG 800
Однако частью этого выравнивания является второе по весу (не сильно отличающееся: 95.5 bits, в то время как лучшее найденное 99.8 bits):
Query 1207 HRGQIEVRNLTVKYTEAGHAVLKNLSFSAEGRQRVGILGRTGSGKSSLFNALLKLV-YTD 1265
+G+IE N+ Y + G L+++SF+ Q + ++G +G+GKS++ L + +
Sbjct 586 QKGRIEFENVHFSYAD-GRETLQDVSFTVMPGQTLALVGPSGAGKSTILRLLFRFYDISS 644
Query 1266 GEISIDGVNWNKMPLQKWRKAFGVVPQKVFIFTGPLRMNLDPYG--CHSDEELWRVAEEV 1323
G I IDG + +++ R GVVPQ +F + N+ YG ++E+ A+
Sbjct 645 GCIRIDGQDISQVTQASLRSHIGVVPQDTVLFNDTIADNIR-YGRVTAGNDEVEAAAQAA 703
Query 1324 GLKTVIEQFPDKLDFQLEYGGYVLSNGHKQLICLARSILSGARILLLDEPSAHLDPVTIK 1383
G+ I FP+ Q+ G LS G KQ + +AR+IL I+LLDE ++ LD +
Sbjct 704 GIHDAIMAFPEGYRTQVGERGLKLSGGEKQRVAIARTILKAPGIILLDEATSALDTSNER 763
Query 1384 VLKKTLRQSFSTCTILLSEHKVEPLLECQSFLMMDKGQV 1422
++ +L + + T ++ H++ ++ L++ G +
Sbjct 764 AIQASLAKVCANRTTIVVAHRLSTVVNADQILVIKDGCI 802
В этих выравниваниях есть несколько отличий. Так, Q586 ABCB6_HUMAN(Sbjct) соответствует H1207 CFTR_DANRE(Query) в выравнивании BLAST и K1186 в выравнивании water, D1306 CFTR_DANRE соответствует R685 ABCB6_HUMAN в выравнивании BLAST и ничему в выравнивании water.
Этот фрагмент (CFTR_DANRE 1207-1422, ABCB6_HUMAN 586-802) в обоих белках примерно совпадает с размеченным доменом ABC transporter (позиции: CFTR_DANRE 1211-1444 и ABCB6_HUMAN 590-824). Причём лучшее из BLAST'вских выравниваний (CFTR_DANRE 386-621 и ABCB6_HUMAN 565-800) представляет этот же домен (позиция CFTR_DANRE 424-645). Если нанести размеченные домены на диаграмму выравнивания, можно видеть яснее, что домен ABC transporter и является тем фрагментом, присутствующим дважды в CFTR_DANRE и один раз в ABCB6_HUMAN, который был виден на карте локального сходства. Меньшие участки, заметные на ней, скорее всего выровнялись по случайным причинам и эволюционного смысла это выравнивание не несёт.

Для выравнивания CFTR_DANRE 440-481, ABCB6_HUMAN 353-398 это дополнительно подтверждается следующим соображением: раз этот фрагмент на CFTR_DANRE является частью размеченного домена, было бы логичным видеть его, и, соответственно, локальное выравнивание его с ABCB6_HUMAN 353-398, и во втором таком же домене, однако, этого не происходит.
Выравнивание CFTR_DANRE 323-348, ABCB6_HUMAN 780-850 просто покрывает очень короткий участок, и вероятность случайного совпадения высока.
Про выравнивание CFTR_DANRE 723-794, ABCB6_HUMAN 603-671 непонятно. С одной стороны, сравнение того, какие именно аминокислоты выровнялись с соответствующим фрагментам, показывает, что совпадения, если они есть, сравнительно часто именно по консервативным (т.е. общим и для двух других выравниваний)позициям - если бы сходство было случайным, совпадения обнаруживались бы одинаково часто для консервативных и неконсервативных позиций.

С другой стороны, в полях FT для CFTR_DANRE этот участок попадает внутрь TOPO_DOM "Cytoplasmic" и REGION "Intrinsically disordered R region" (то есть участок без выраженой вторичной структуры, и в соответствующих полях для него она, действительно, не указана). Однако соответствующий участок ABCB6_HUMAN 603-671, согласно полям FT, вторичную структуру имеет.
Ещё кажется странным, что выравнивание не показывает гомологии участков, размеченных как ABC transmembrane type-1, хотя от них можно было бы ожидать сходство.