Элементарные эволюционные
события
GO TO:

Подготовка данных
Биологическая задача состоит в том, чтобы оценить давление отбора на ген заданного белка HEMN_ECOLI - в период, начиная с момента расхождения двух организмов. Для этого необходимо найти ортологов в соответствующих организмах. В рамках поставленной задачи ортологами считались последовательности с процентом ID=60-80% и имеющие похожие аннотации в UniProt.
В моём случае заданный белок - это Кислород-независимая копропорфириноген оксидаза III из Escherichia coli, K-12 (OXYGEN-INDEPENDENT COPROPORPHYRINOGEN III OXIDASE, HEMN_ECOLI), и предлагалось оценивать давление отбора на ген этого белка с момента расхождения E.coli и Pseudomonas aeruginosa - синегнойной палочки. Однако ген сходного белка в P.aeruginosa оказался слишком отличен от гена в E.coli - поиск гомологичных HEMN белковых последовательностей в P.aeruginosa с помощью TBLASTN по полному геному выявил ближайшего гомолога с процентом идентичности ID=51%, что в рамках поставленной задачи не позволило считать его ортологом. В связи с этим был осуществлён поиск ортологов в полном геноме Yersinia pestis. В результате была найдена последовательность Q1C239_YERPA, отвечающая "анаеробной" копропорфириноген оксидазе III (Coproporphyrinogen III oxidase, anaerobic )(имеется видимо "кислород-независимая") Y.pestis и имеющая процент ID=78% с последовательностью HEMN_ECOLI.
Выравнивание, постоенное TBLASTN-ом

Белковая последовательность Q1C239_YERPA

Ген Q1C239_YERPA

Запись cds из полного генома Y.pestis

Поcтроение выравниваний с помощью NEEDLE
Были построены белковые и нуклеотидные выравнивания найденой последовательности с соответсвующими последовательностями HEMN_ECOLI с использованием программы NEEDLE:
1.Белковое выравнивание:
#=======================================
#
# Aligned_sequences: 2
# 1: Hemn
# 2: Q1C239_YERPA
# Matrix: EBLOSUM62
# Gap_penalty: 10.0
# Extend_penalty: 0.5
#
# Length: 457
# Identity:     359/457 (78.6%)
# Similarity:   409/457 (89.5%)
# Gaps:           0/457 ( 0.0%)
# Score: 1939.0
# 
#
#=======================================

Hemn               1 MSVQQIDWDLALIQKYNYSGPRYTSYPTALEFSEDFGEQAFLQAVARYPE     50
                     ||...|.|||:||||||||||||||||||||||||:.|.||.|||.|||:
Q1C239_YERPA       1 MSEHAIVWDLSLIQKYNYSGPRYTSYPTALEFSEDYNESAFQQAVKRYPQ     50

Hemn              51 RPLSLYVHIPFCHKLCYFCGCNKIVTRQQHKADQYLDALEQEIVHRAPLF    100
                     |||||||||||||||||||||||:|||||||||:||..||:||..||.||
Q1C239_YERPA      51 RPLSLYVHIPFCHKLCYFCGCNKLVTRQQHKADEYLVVLEKEIRQRAALF    100

Hemn             101 AGRHVSQLHWGGGTPTYLNKAQISRLMKLLRENFQFNADAEISIEVDPRE    150
                     .||.|||:||||||||||||.|||.||.:|||:|.|..|||.||||||||
Q1C239_YERPA     101 TGRQVSQMHWGGGTPTYLNKTQISHLMTVLREHFDFLPDAEQSIEVDPRE    150

Hemn             151 IELDVLDHLRAEGFNRLSMGVQDFNKEVQRLVNREQDEEFIFALLNHARE    200
                     ||||||||||||||||||||||||||||||||||||||:|||||:..|:.
Q1C239_YERPA     151 IELDVLDHLRAEGFNRLSMGVQDFNKEVQRLVNREQDEDFIFALIARAKA    200

Hemn             201 IGFTSTNIDLIYGLPKQTPESFAFTLKRVAELNPDRLSVFNYAHLPTIFA    250
                     :||.||||||||||||||||||||||||||||||||||||||||||::||
Q1C239_YERPA     201 LGFNSTNIDLIYGLPKQTPESFAFTLKRVAELNPDRLSVFNYAHLPSLFA    250

Hemn             251 AQRKIKDADLPSPQQKLDILQETIAFLTQSGYQFIGMDHFARPDDELAVA    300
                     |||||||||||:.:|:|||||.||.|||:|||||||||||||||||||:|
Q1C239_YERPA     251 AQRKIKDADLPTAEQRLDILQHTIRFLTESGYQFIGMDHFARPDDELAIA    300

Hemn             301 QREGVLHRNFQGYTTQGDTDLLGMGVSAISMIGDCYAQNQKELKQYYQQV    350
                     |:||.||||||||||||::||||:|||||||:||.||||:|:|:.||..|
Q1C239_YERPA     301 QQEGTLHRNFQGYTTQGESDLLGLGVSAISMLGDSYAQNEKDLETYYACV    350

Hemn             351 DEQGNALWRGIALTRDDCIRRDVIKSLICNFRLDYAPIEKQWDLHFADYF    400
                     :::|||||||:.:|.|||:||||||:|||:|:|.|.|||:::.:.|||||
Q1C239_YERPA     351 EQRGNALWRGLTMTEDDCLRRDVIKTLICHFQLSYQPIEQRYGIRFADYF    400

Hemn             401 AEDLKLLAPLAKDGLVDVDEKGIQVTAKGRLLIRNICMCFDTYLRQKARM    450
                     |||.:||||..:||||:.:|.|::||.:|||||||||||||.|||::||.
Q1C239_YERPA     401 AEDFELLAPFEQDGLVERNETGLRVTPRGRLLIRNICMCFDIYLRKQARK    450

Hemn             451 QQFSRVI    457
                     |||||||
Q1C239_YERPA     451 QQFSRVI    457


Соответствующий полный файл

2. Нуклеотидное выравнивание:
#=======================================
#
# Aligned_sequences: 2
# 1: Hemn
# 2: Coproporphyrinogen
# Matrix: EDNAFULL
# Gap_penalty: 20.0
# Extend_penalty: 1.0
#
# Length: 1374
# Identity:     985/1374 (71.7%)
# Similarity:   985/1374 (71.7%)
# Gaps:           0/1374 ( 0.0%)
# Score: 3369.0
# 
#
#=======================================

Hemn               1 atgtctgtacagcaaatcgactgggatctggccctgatccagaaatataa     50
                     |||||||..||....||.|..||||||||..|||||||.||.||||||||
Coproporphyri      1 atgtctgagcacgctatagtttgggatctatccctgattcaaaaatataa     50

Hemn              51 ctattccgggccacgatacacctcgtacccgaccgcgctggagttttcag    100
                     .|||||.|||||.||.||.||||||||.||.||.||.||.||||||...|
Coproporphyri     51 ttattcagggccgcgttatacctcgtatccaacggctcttgagtttagtg    100

Hemn             101 aagacttcggcgaacaggcgtttttacaagccgtggcgcgctatcctgag    150
                     ||||.|.|...||....||.||....||.||.|||...||.|||||..|.
Coproporphyri    101 aagattacaatgagtctgctttccagcaggcggtgaaacgttatccgcaa    150

Hemn             151 cgtccattatctctctacgtacatatcccgttctgccataagctttgtta    200
                     ||.|||||.||.||.||.||.|||||.|||||.|||||.||.|||||.||
Coproporphyri    151 cggccattgtcgctgtatgtgcatattccgttttgccacaaactttgcta    200

Hemn             201 cttctgcggttgcaataagattgttactcgccagcagcacaaggccgatc    250
                     ||||||.||.||||||||..|.||.||.||.|||||.||.||.||.|||.
Coproporphyri    201 cttctgtggctgcaataaactggtgacgcgtcagcaacataaagctgatg    250

Hemn             251 agtatctggacgcgctggagcaagaaatcgtccatcgtgcaccgctgttc    300
                     |.|||||||..|.|.||||..||||.|||..|||.||.||..|..||||.
Coproporphyri    251 aatatctggtggtgttggaaaaagagatccgccagcgggccgccttgttt    300

Hemn             301 gccgggcgtcacgtcagccaattgcactggggcggcggaacgccgacgta    350
                     .||||||||||.||||||||..||||||||||.||.||.|||||.||.||
Coproporphyri    301 accgggcgtcaggtcagccagatgcactggggggggggtacgccaaccta    350

Hemn             351 tctgaataaagcgcaaatcagccgcctgatgaagctgctgcgcgaaaact    400
                     ||||||||||.||||||||||||...|.||||.|.|||||||.|||.|||
Coproporphyri    351 tctgaataaaacgcaaatcagccatttaatgacggtgctgcgtgaacact    400

Hemn             401 tccagttcaatgccgatgcggagatttcgatcgaagtcgatccgcgggaa    450
                     |..|.||.....|||||||||||...||.||||||||.||.||.||.|||
Coproporphyri    401 ttgattttctgcccgatgcggagcagtcaatcgaagttgacccccgtgaa    450

Hemn             451 atcgaactggatgtactcgatcatttacgcgccgaaggctttaatcgcct    500
                     ||.|||.|.|||||.||.|||||..|.||.||.|||||.|||||||||||
Coproporphyri    451 attgaattagatgtgcttgatcacctgcgtgctgaagggtttaatcgcct    500

Hemn             501 gagcatgggcgtgcaggacttcaacaaagaagtgcaacgtctggttaacc    550
                     |||||||||.||||||||.|||||.|||||.|||||.||.||||||||||
Coproporphyri    501 gagcatgggggtgcaggatttcaataaagaggtgcagcggctggttaacc    550

Hemn             551 gcgagcaggatgaagagttcatctttgcactgcttaaccatgcgcgtgag    600
                     |||||||.||||||||.||.|||||.||..|..||..||..||....|.|
Coproporphyri    551 gcgagcaagatgaagattttatcttcgctttaattgcccgagctaaagcg    600

Hemn             601 attggttttacctccaccaacatcgacctgatttacggcctgccgaaaca    650
                     .||||.||||.|||.|||||.||.||..|||||||.|||.||||.||.||
Coproporphyri    601 cttggatttaactcaaccaatattgatttgatttatggcttgcccaagca    650

Hemn             651 gacgccggagagtttcgcctttaccctgaaacgtgtggcggagctgaacc    700
                     |||.||.||.|||||.||.||.|||.|.|||||.||.||.||||||||||
Coproporphyri    651 gacaccagaaagttttgctttcaccttaaaacgggttgctgagctgaacc    700

Hemn             701 ccgatcgtctgagtgtctttaactacgcgcatctgccgaccatttttgct    750
                     |.|||||..|.||.||.|||||.|||||.||||||||.|.|.|.|||||.
Coproporphyri    701 cagatcgcttaagcgtgtttaattacgcccatctgccaagcctgtttgcc    750

Hemn             751 gctcagcgcaaaatcaaagatgctgacctgccgagtccgcagcaaaaact    800
                     ||.||.||.|||||||||||.|||||.|||||.|...||.|||||....|
Coproporphyri    751 gcccaacgtaaaatcaaagacgctgatctgccaacggcggagcaacggtt    800

Hemn             801 cgatatcctgcaggaaaccatcgccttcctgacgcaatcgggctatcagt    850
                     .|||||..|||||.|.||||||...|||.|.|||.|.||.||||||||.|
Coproporphyri    801 ggatattttgcagcacaccatccgtttcttaacggagtctggctatcaat    850

Hemn             851 ttatcggtatggatcactttgcccgtccggatgacgagctggcggtggcc    900
                     |.||.||.||||||||.|||||.|||||||||||.||.|||||..|.||.
Coproporphyri    851 tcattgggatggatcattttgcgcgtccggatgatgaactggcaattgct    900

Hemn             901 cagcgtgaaggcgtgctgcatcgtaacttccagggctacaccactcaggg    950
                     ||||..|||||.....|.||.||.|||||.||.||.||.|||||.|||||
Coproporphyri    901 cagcaggaaggaacattacaccgcaactttcaagggtataccacgcaggg    950

Hemn             951 cgataccgatctgctggggatgggcgtttccgccatcagcatgattggcg   1000
                     .||.|.||||||.||.|||.||||.|||||.||.|||||||||.|.||.|
Coproporphyri    951 tgagagcgatctccttgggttgggggtttctgctatcagcatgttaggtg   1000

Hemn            1001 actgctacgcgcagaaccagaaagagttgaagcagtactatcagcaagtg   1050
                     ||.|||||||.|||||..|.|||||..||.|....||.||.......||.
Coproporphyri   1001 acagctacgctcagaatgaaaaagatctggaaacatattacgcctgtgta   1050

Hemn            1051 gatgaacaaggcaatgcgctgtggcgtggtattgcgctaacgcgtgatga   1100
                     ||..|||..||.||||||.|||||||.||..|..|..|.||....||.||
Coproporphyri   1051 gagcaacggggtaatgcgttgtggcgcggcctgactatgaccgaagacga   1100

Hemn            1101 ctgtattcgccgcgatgtgattaagtcgctcatctgcaacttccgtctgg   1150
                     .|||.|.|||||.|||||||||||..||||.||.||..|.||||..||..
Coproporphyri   1101 ttgtttacgccgagatgtgattaaaacgctgatttgtcatttccaactca   1150

Hemn            1151 attacgcccctattgagaaacagtgggatttgcacttcgctgattacttt   1200
                     .||||...||.||||||.|.|..|..|.|.|.|..||.||.|||||.|||
Coproporphyri   1151 gttaccagccgattgagcagcgttatggtattcggtttgccgattatttt   1200

Hemn            1201 gcggaagatctcaagctgctcgccccgttagcaaaagatgggctggtgga   1250
                     ||.||||||.|..|||||||.||.||.||.|.|.|.||||||||||||||
Coproporphyri   1201 gccgaagattttgagctgcttgcaccttttgaacaggatgggctggtgga   1250

Hemn            1251 tgtggatgagaagggaatacaggtgacggcgaaaggtcgcttgctgatcc   1300
                     .....||||.|..||..|.|..|||||..|....||.|||||.||.||.|
Coproporphyri   1251 gcgaaatgaaacagggcttcgcgtgaccccccgtgggcgcttactcattc   1300

Hemn            1301 gcaacatttgcatgtgctttgatacctatctgcgccagaaagcgcggatg   1350
                     |.||.|||||.|||||.||.||||.||||.|.||..|..|.|||||.|.|
Coproporphyri   1301 gtaatatttgtatgtgtttcgatatctatttacgtaaacaggcgcgcaag   1350

Hemn            1351 cagcagttctctcgggtgatttaa   1374
                     |||||.|||||.||.||.||.|.|
Coproporphyri   1351 cagcaattctcacgtgtaatctga   1374



Соответствующий полный файл

Это выравнивание было построено с входными параметрами на "gapopen" 20 и "gapextend" 1, т.к. гены одинаковой длинны и при обычных параметрах (10;0.5) последовательности "сдвигались" друг относительно друга, образуя парные "гэпы" в строках выравнивания - иными словами образовывался локальный сдвиг рамки.
Видно, что в построенных выравниваниях проценты идентичности весьма схожи: 78.6% и 71.7%. Так как избавиться от локальных сдвигов рамки в нуклеотидном выравнивании удалось только при высоком штрафе за открытие "гэпа", последовательности выровнялись без вставок и делеций вообще, что сделало белковое и нуклеотидное выравнивание почти идентичными.
Выравнивания с учётом кодонов
Ka/Ks и характеристика отбора
PAL2NAL - программа способная на основе белкового выравнивания и соответствующих нуклеотидных последовательностей строить "покодонное" выравнивание. Программа имеет определённую степень гибкости - она сама отмечает и учитывает при работе несоответствия между соответствующими белковыми и нуклеотидными последовательностями, наличие поли-А хвостов и 5' НТР. На основе получаемых данных PAL2NAL также вычисляет значения Ка и Кs. Мною было построено соответствующее выравнивание:

PAL2NAL output

                M   S   V   Q   Q   I   D   W   D   L   A   L   I   Q   K   Y   N   Y   S   G
Hemn            atg tct gta cag caa atc gac tgg gat ctg gcc ctg atc cag aaa tat aac tat tcc ggg
                M   S   E   H   A   I   V   W   D   L   S   L   I   Q   K   Y   N   Y   S   G
Q1C239_YERPA    atg tct gag cac gct ata gtt tgg gat cta tcc ctg att caa aaa tat aat tat tca ggg

                P   R   Y   T   S   Y   P   T   A   L   E   F   S   E   D   F   G   E   Q   A
Hemn            cca cga tac acc tcg tac ccg acc gcg ctg gag ttt tca gaa gac ttc ggc gaa cag gcg
                P   R   Y   T   S   Y   P   T   A   L   E   F   S   E   D   Y   N   E   S   A
Q1C239_YERPA    ccg cgt tat acc tcg tat cca acg gct ctt gag ttt agt gaa gat tac aat gag tct gct

                F   L   Q   A   V   A   R   Y   P   E   R   P   L   S   L   Y   V   H   I   P
Hemn            ttt tta caa gcc gtg gcg cgc tat cct gag cgt cca tta tct ctc tac gta cat atc ccg
                F   Q   Q   A   V   K   R   Y   P   Q   R   P   L   S   L   Y   V   H   I   P
Q1C239_YERPA    ttc cag cag gcg gtg aaa cgt tat ccg caa cgg cca ttg tcg ctg tat gtg cat att ccg

                F   C   H   K   L   C   Y   F   C   G   C   N   K   I   V   T   R   Q   Q   H
Hemn            ttc tgc cat aag ctt tgt tac ttc tgc ggt tgc aat aag att gtt act cgc cag cag cac
                F   C   H   K   L   C   Y   F   C   G   C   N   K   L   V   T   R   Q   Q   H
Q1C239_YERPA    ttt tgc cac aaa ctt tgc tac ttc tgt ggc tgc aat aaa ctg gtg acg cgt cag caa cat

                K   A   D   Q   Y   L   D   A   L   E   Q   E   I   V   H   R   A   P   L   F
Hemn            aag gcc gat cag tat ctg gac gcg ctg gag caa gaa atc gtc cat cgt gca ccg ctg ttc
                K   A   D   E   Y   L   V   V   L   E   K   E   I   R   Q   R   A   A   L   F
Q1C239_YERPA    aaa gct gat gaa tat ctg gtg gtg ttg gaa aaa gag atc cgc cag cgg gcc gcc ttg ttt

                A   G   R   H   V   S   Q   L   H   W   G   G   G   T   P   T   Y   L   N   K
Hemn            gcc ggg cgt cac gtc agc caa ttg cac tgg ggc ggc gga acg ccg acg tat ctg aat aaa
                T   G   R   Q   V   S   Q   M   H   W   G   G   G   T   P   T   Y   L   N   K
Q1C239_YERPA    acc ggg cgt cag gtc agc cag atg cac tgg ggg ggg ggt acg cca acc tat ctg aat aaa

                A   Q   I   S   R   L   M   K   L   L   R   E   N   F   Q   F   N   A   D   A
Hemn            gcg caa atc agc cgc ctg atg aag ctg ctg cgc gaa aac ttc cag ttc aat gcc gat gcg
                T   Q   I   S   H   L   M   T   V   L   R   E   H   F   D   F   L   P   D   A
Q1C239_YERPA    acg caa atc agc cat tta atg acg gtg ctg cgt gaa cac ttt gat ttt ctg ccc gat gcg

                E   I   S   I   E   V   D   P   R   E   I   E   L   D   V   L   D   H   L   R
Hemn            gag att tcg atc gaa gtc gat ccg cgg gaa atc gaa ctg gat gta ctc gat cat tta cgc
                E   Q   S   I   E   V   D   P   R   E   I   E   L   D   V   L   D   H   L   R
Q1C239_YERPA    gag cag tca atc gaa gtt gac ccc cgt gaa att gaa tta gat gtg ctt gat cac ctg cgt

                A   E   G   F   N   R   L   S   M   G   V   Q   D   F   N   K   E   V   Q   R
Hemn            gcc gaa ggc ttt aat cgc ctg agc atg ggc gtg cag gac ttc aac aaa gaa gtg caa cgt
                A   E   G   F   N   R   L   S   M   G   V   Q   D   F   N   K   E   V   Q   R
Q1C239_YERPA    gct gaa ggg ttt aat cgc ctg agc atg ggg gtg cag gat ttc aat aaa gag gtg cag cgg

                L   V   N   R   E   Q   D   E   E   F   I   F   A   L   L   N   H   A   R   E
Hemn            ctg gtt aac cgc gag cag gat gaa gag ttc atc ttt gca ctg ctt aac cat gcg cgt gag
                L   V   N   R   E   Q   D   E   D   F   I   F   A   L   I   A   R   A   K   A
Q1C239_YERPA    ctg gtt aac cgc gag caa gat gaa gat ttt atc ttc gct tta att gcc cga gct aaa gcg

                I   G   F   T   S   T   N   I   D   L   I   Y   G   L   P   K   Q   T   P   E
Hemn            att ggt ttt acc tcc acc aac atc gac ctg att tac ggc ctg ccg aaa cag acg ccg gag
                L   G   F   N   S   T   N   I   D   L   I   Y   G   L   P   K   Q   T   P   E
Q1C239_YERPA    ctt gga ttt aac tca acc aat att gat ttg att tat ggc ttg ccc aag cag aca cca gaa

                S   F   A   F   T   L   K   R   V   A   E   L   N   P   D   R   L   S   V   F
Hemn            agt ttc gcc ttt acc ctg aaa cgt gtg gcg gag ctg aac ccc gat cgt ctg agt gtc ttt
                S   F   A   F   T   L   K   R   V   A   E   L   N   P   D   R   L   S   V   F
Q1C239_YERPA    agt ttt gct ttc acc tta aaa cgg gtt gct gag ctg aac cca gat cgc tta agc gtg ttt

                N   Y   A   H   L   P   T   I   F   A   A   Q   R   K   I   K   D   A   D   L
Hemn            aac tac gcg cat ctg ccg acc att ttt gct gct cag cgc aaa atc aaa gat gct gac ctg
                N   Y   A   H   L   P   S   L   F   A   A   Q   R   K   I   K   D   A   D   L
Q1C239_YERPA    aat tac gcc cat ctg cca agc ctg ttt gcc gcc caa cgt aaa atc aaa gac gct gat ctg

                P   S   P   Q   Q   K   L   D   I   L   Q   E   T   I   A   F   L   T   Q   S
Hemn            ccg agt ccg cag caa aaa ctc gat atc ctg cag gaa acc atc gcc ttc ctg acg caa tcg
                P   T   A   E   Q   R   L   D   I   L   Q   H   T   I   R   F   L   T   E   S
Q1C239_YERPA    cca acg gcg gag caa cgg ttg gat att ttg cag cac acc atc cgt ttc tta acg gag tct

                G   Y   Q   F   I   G   M   D   H   F   A   R   P   D   D   E   L   A   V   A
Hemn            ggc tat cag ttt atc ggt atg gat cac ttt gcc cgt ccg gat gac gag ctg gcg gtg gcc
                G   Y   Q   F   I   G   M   D   H   F   A   R   P   D   D   E   L   A   I   A
Q1C239_YERPA    ggc tat caa ttc att ggg atg gat cat ttt gcg cgt ccg gat gat gaa ctg gca att gct

                Q   R   E   G   V   L   H   R   N   F   Q   G   Y   T   T   Q   G   D   T   D
Hemn            cag cgt gaa ggc gtg ctg cat cgt aac ttc cag ggc tac acc act cag ggc gat acc gat
                Q   Q   E   G   T   L   H   R   N   F   Q   G   Y   T   T   Q   G   E   S   D
Q1C239_YERPA    cag cag gaa gga aca tta cac cgc aac ttt caa ggg tat acc acg cag ggt gag agc gat

                L   L   G   M   G   V   S   A   I   S   M   I   G   D   C   Y   A   Q   N   Q
Hemn            ctg ctg ggg atg ggc gtt tcc gcc atc agc atg att ggc gac tgc tac gcg cag aac cag
                L   L   G   L   G   V   S   A   I   S   M   L   G   D   S   Y   A   Q   N   E
Q1C239_YERPA    ctc ctt ggg ttg ggg gtt tct gct atc agc atg tta ggt gac agc tac gct cag aat gaa

                K   E   L   K   Q   Y   Y   Q   Q   V   D   E   Q   G   N   A   L   W   R   G
Hemn            aaa gag ttg aag cag tac tat cag caa gtg gat gaa caa ggc aat gcg ctg tgg cgt ggt
                K   D   L   E   T   Y   Y   A   C   V   E   Q   R   G   N   A   L   W   R   G
Q1C239_YERPA    aaa gat ctg gaa aca tat tac gcc tgt gta gag caa cgg ggt aat gcg ttg tgg cgc ggc

                I   A   L   T   R   D   D   C   I   R   R   D   V   I   K   S   L   I   C   N
Hemn            att gcg cta acg cgt gat gac tgt att cgc cgc gat gtg att aag tcg ctc atc tgc aac
                L   T   M   T   E   D   D   C   L   R   R   D   V   I   K   T   L   I   C   H
Q1C239_YERPA    ctg act atg acc gaa gac gat tgt tta cgc cga gat gtg att aaa acg ctg att tgt cat

                F   R   L   D   Y   A   P   I   E   K   Q   W   D   L   H   F   A   D   Y   F
Hemn            ttc cgt ctg gat tac gcc cct att gag aaa cag tgg gat ttg cac ttc gct gat tac ttt
                F   Q   L   S   Y   Q   P   I   E   Q   R   Y   G   I   R   F   A   D   Y   F
Q1C239_YERPA    ttc caa ctc agt tac cag ccg att gag cag cgt tat ggt att cgg ttt gcc gat tat ttt

                A   E   D   L   K   L   L   A   P   L   A   K   D   G   L   V   D   V   D   E
Hemn            gcg gaa gat ctc aag ctg ctc gcc ccg tta gca aaa gat ggg ctg gtg gat gtg gat gag
                A   E   D   F   E   L   L   A   P   F   E   Q   D   G   L   V   E   R   N   E
Q1C239_YERPA    gcc gaa gat ttt gag ctg ctt gca cct ttt gaa cag gat ggg ctg gtg gag cga aat gaa

                K   G   I   Q   V   T   A   K   G   R   L   L   I   R   N   I   C   M   C   F
Hemn            aag gga ata cag gtg acg gcg aaa ggt cgc ttg ctg atc cgc aac att tgc atg tgc ttt
                T   G   L   R   V   T   P   R   G   R   L   L   I   R   N   I   C   M   C   F
Q1C239_YERPA    aca ggg ctt cgc gtg acc ccc cgt ggg cgc tta ctc att cgt aat att tgt atg tgt ttc

                D   T   Y   L   R   Q   K   A   R   M   Q   Q   F   S   R   V   I
Hemn            gat acc tat ctg cgc cag aaa gcg cgg atg cag cag ttc tct cgg gtg att
                D   I   Y   L   R   K   Q   A   R   K   Q   Q   F   S   R   V   I
Q1C239_YERPA    gat atc tat tta cgt aaa cag gcg cgc aag cag caa ttc tca cgt gta atc



Synonymous (KS) and non-synonymous (KA) substitution rates calcualted by codeml in the PAML package:
KS = 4.0109
KA = 0.1285
KA/KS = 0.0320
You can see the parameters used in codeml to calculate these values.
(Goldman, N. and Yang, Z. 1994. A codon-based model of nucleotide substitution for protein-coding DNA sequences. Molecular Biology and Evolution 11:725-736.)
Для подсчёта Ка/Кs было необходимо использовать опции Remove gaps, inframe stop codons :Calculate KS and KA, а также Remove mismatches. Программа не может совмещать по-кодонное выравнивание с подсчётом Ка/Кs. Так что предстваленные данные были взяты из двух разных запросов. Выходные файлы:
Выравнивание с учётом кодонов

Выравнивание с подсчётом КаКs

Кроме того программа оказалась требовательна к формату подаваемых на вход данных.
Полученное значение Ka/Ks заметно меньше единицы, что означает наличие стабилизирующего отбора.

© designed by Alex Makarov