Элементарные эволюционные события.

  1. Оценить давление отбора на ген заданного белка (работа с веб-сервером PAL2NAL).

"..Биологическая задача состоит в том, чтобы оценить давление отбора на ген заданного белка в период, начиная с момента расхождения
кишечной палочки и синегнойной палочки.."
Синегнойная палочка (Pseudomonas aeruginosa) Кишечная палочка (Escherichia coli)
Pseudomonas_aeruginosa Escherichia_Coli

Выполнение этого задания состоит из нескольких этапов.
Заданный мне белок - KAD_ECOLI, его AC - P69441, его последовательность в формате fasta. Соответствующая ему аннотация в UniProt - Adenylate kinase (EC 2.7.4.3) (ATP-AMP transphosphorylase) (AK).

При помощи алгоритма программы blastp пакета  BLAST был найден гомолог белка KAD_ECOLI в организме Pseudomonas aeruginosa с лучшим значением e-value (3e-76) и наибольшим ID (63%).

Далее представлено соответствующее выравнивание.

 Score =  280 bits (717),  Expect = 3e-76, Method: Compositional matrix adjust.
 Identities = 135/214 (63%), Positives = 164/214 (76%), Gaps = 1/214 (0%)

Query  1    MRIILLGAPGAGKGTQAQFIMEKYGIPQISTGDMLRAAVKSGSELGKQAKDIMDAGKLVT  60
            MR+ILLGAPGAGKGTQA+FI EK+GIPQISTGDMLRAAVK+GS LG+Q K +MD+G LV+
Sbjct  1    MRVILLGAPGAGKGTQARFITEKFGIPQISTGDMLRAAVKAGSPLGQQVKGVMDSGGLVS  60

Query  61   DELVIALVKERIAQEDCRNGFLLDGFPRTIPQADAMKEAGINVDYVLEFDVPDELIVDRI  120
            D+++IAL+KERI + DC  GFL DGFPRTIPQA+A+K+AG+ +D+V+E  V DE IV RI
Sbjct  61   DDIIIALIKERITEADCAKGFLFDGFPRTIPQAEALKDAGVTIDHVVEIAVDDEEIVSRI  120

Query  121  VGRRVHAPSGRVYHVKFNPPKVEGKDDVTGEELTTRKDDQEETVRKRLVEYHQMTAPLIG  180
             GRRVH  SGRVYH + NPPKV GKDDVTGEEL  R+DD+EETVR RL  YH  T PL+ 
Sbjct  121  AGRRVHPASGRVYHTEHNPPKVAGKDDVTGEELIQREDDKEETVRHRLSVYHSQTKPLVD  180

Query  181  YYSK-EAEAGNTKYAKVDGTKPVAEVRADLEKIL  213
            +Y K  A  G  KY  + G   V ++ A +   L
Sbjct  181  FYQKLSAAEGTPKYHSIAGVGSVEQITAKVLSAL  214

Информация о найденном белке:

     source          1..215
                     /organism="Pseudomonas aeruginosa PAO1"
                     /strain="PAO1"
                     /db_xref="taxon:208964"
     Protein         1..215
                     /product="adenylate kinase"
                     /EC_number="2.7.4.3"
                     /calculated_mol_wt=22976
     Region          1..215
                     /region_name="Adk"
                     /note="Adenylate kinase and related kinases [Nucleotide
                     transport and metabolism]; COG0563"
                     /db_xref="CDD:30909"
     Region          2..206
                     /region_name="ADK"
                     /note="Adenylate kinase (ADK) catalyzes the reversible
                     phosphoryl transfer from adenosine triphosphates (ATP) to
                     adenosine monophosphates (AMP) and to yield adenosine
                     diphosphates (ADP); cd01428"
                     /db_xref="CDD:30189"
     Site            order(31,36,59,84..85,87..88,92)
                     /site_type="other"
                     /note="AMP-binding site"
                     /db_xref="CDD:30189"
     Site            order(36,84,88,123,167,171)
                     /site_type="other"
                     /note="ATP-AMP (Ap5A)-binding site"
                     /db_xref="CDD:30189"
     CDS             1..215
                     /gene="adk"
                     /locus_tag="PA3686"
                     /coded_by="complement(NC_002516.2:4126948..4127595)"
                     /note="essential enzyme that recycles AMP in active cells;
                     converts ATP and AMP to two molecules of ADP"
                     /transl_table=11
                     /db_xref="GeneID:879082"
Как видно, описание найденного программой BLAST белка с наилучшим ID - adenylate kinase - соответствует аннотации заданного белка, поэтому, в соответствии с принятым определением ортологов как "последовательности, совпадающие на 60-80% и имеющие похожую аннотацию в UniProt", данную находку KAD_PSEAE и белок KAD_ECOLI можно считать ортологами.

Текстовые файлы с последовательностями гипотетического ортолога и его гена.


При помощи программы needle были построены попарные белковое и нуклеотидное выравнивание с параметрами по умолчанию (более подробно с использованными командами можно ознакомится в приложенном файле отчёта в текстовом формате). Последовательность гена, соответствующего белку KAD_ECOLI  была получена при выполнении второго упражнения занятия "Банк EMBL" третьего семестра. В результате, были получены два текстовых файла: белковое выравнивание, нуклеотидное выравнивание.

Проанализируем полученные выравнивания.

Белковое выравнивание Нуклеотидное выравнивание
218 Length 696
136/218  Identity 443/696
 62.4% 63.6%
165/218 Similarity 443/696
75.7% 63.6%
7/218 Gaps 99/696
3.2% 14.2%
705.0 Score 1349.0
KAD_ECOLI    1 MRIILLGAPGAGKGTQAQFIMEKYGIPQISTGDMLRAAVKSGSELGKQAK  50
               ||:||||||||||||||:||.||:||||||||||||||||:||.||:|.|
KAD_PSEAE    1 MRVILLGAPGAGKGTQARFITEKFGIPQISTGDMLRAAVKAGSPLGQQVK  50

KAD_ECOLI   51 DIMDAGKLVTDELVIALVKERIAQEDCRNGFLLDGFPRTIPQADAMKEAG 100
               .:||:|.||:|:::|||:||||.:.||..|||.||||||||||:|:|:||
KAD_PSEAE   51 GVMDSGGLVSDDIIIALIKERITEADCAKGFLFDGFPRTIPQAEALKDAG 100

KAD_ECOLI  101 INVDYVLEFDVPDELIVDRIVGRRVHAPSGRVYHVKFNPPKVEGKDDVTG 150
               :.:|:|:|..|.||.||.||.|||||..||||||.:.|||||.|||||||
KAD_PSEAE  101 VTIDHVVEIAVDDEEIVSRIAGRRVHPASGRVYHTEHNPPKVAGKDDVTG 150

KAD_ECOLI  151 EELTTRKDDQEETVRKRLVEYHQMTAPLIGYYSK-EAEAGNTKYAKVDGT 199
               |||..|:||:|||||.||..||..|.||:.:|.| .|..|..||..:.|.
KAD_PSEAE  151 EELIQREDDKEETVRHRLSVYHSQTKPLVDFYQKLSAAEGTPKYHSIAGV 200

KAD_ECOLI  200 KPVAEVRADLEKILG---  214
               ..|.::.|   |:|.   
KAD_PSEAE  201 GSVEQITA---KVLSALS  215
X03038             1 atgcgtatcattctgcttggcgctccgggcgcggggaaagggactcaggc     50
||||||.|.||||||||.||.||.||.||.||.||.|||||.||.|||||
KAD_PSEAE 1 atgcgtgtgattctgctcggggcacccggtgccggcaaaggcacccaggc 50

X03038 51 tcagttcatcatggagaaatatggtattccgcaaatctccactggcgata 100
.|.||||||||..|||||.|..||.||||||||.||||||||.|||||.|
KAD_PSEAE 51 acggttcatcaccgagaagttcggcattccgcagatctccaccggcgaca 100

X03038 101 tgctgcgtgctgcggtcaaatctggctccgagctgggtaaacaagca--- 147
|||||||.||.||.|||||..|.|||..|..|||.|| |.||||
KAD_PSEAE 101 tgctgcgcgccgcagtcaaggccggcagcccgctcgg----ccagcaggt 146

X03038 148 -aaagacattatgga-tgctggcaaactggtcaccgacgaactggtgatc 195
||||.|.|.||||| .|| |||...|||||..|||||||..|..|.|||
KAD_PSEAE 147 gaaaggcgtgatggacagc-ggcggcctggtatccgacgacatcatcatc 195

X03038 196 gcgctggttaaagagcgcattgctcaggaagactgccgtaatggtttcct 245
||.|||.|.||.||.|||||..|..|||..||.|||...||.||.|||||
KAD_PSEAE 196 gccctgatcaaggaacgcatcaccgaggccgattgcgccaagggcttcct 245

X03038 246 gttggacggcttcccgcgtaccattccgcaggcagacgcgatgaaagaag 295
|||.||||||||||||||.|||||.||||||||.||.|||.||||.||.|
KAD_PSEAE 246 gttcgacggcttcccgcggaccatcccgcaggccgaagcgctgaaggacg 295

X03038 296 cgggcatcaatgttgattacgttctggaattcgacgtaccg--gacgaac 343
|.|||.|.|...|.||..|.||..|.||..|||.||| || |||||..
KAD_PSEAE 296 ccggcgtgaccatcgaccatgtggtcgagatcgccgt--cgacgacgagg 343

X03038 344 tgatcgttgac-cgtatcgtcggtcgccgcgttcatgcgccgtctggtcg 392
.||||| ||.| |||||||.||||||.|||||.|||.||.|.||.||.||
KAD_PSEAE 344 agatcg-tgtcgcgtatcgccggtcgtcgcgtgcatccggcctccggccg 392

X03038 393 tgtttatcacgttaaattcaatccgccgaaagtagaaggcaaagacgacg 442
.||.||.|||....|...|||.||||||||.||.|..|||||.|||||||
KAD_PSEAE 393 cgtgtaccacaccgagcacaacccgccgaaggtcgccggcaaggacgacg 442

X03038 443 ttaccggtgaagaactgactacc--cgtaaagatgatcaggaagagaccg 490
|||||||.|||||.|||| .|| ||..|.||.||..||||||||||||
KAD_PSEAE 443 ttaccggcgaagagctga--tccagcgcgaggacgacaaggaagagaccg 490

X03038 491 tacgtaaacgtctggttgaataccat---cagatgacagcaccgctgatc 537
|.|||.|.||.|||...|..|||||| ||||..| || ||||||.||
KAD_PSEAE 491 tgcgtcaccgcctgtcggtctaccattcgcagacca-ag--ccgctggtc 537

X03038 538 ggctactactccaaagaagcagaagcgg--------------------gt 567
|.||.|||| |||||||.| |.
KAD_PSEAE 538 gacttctac----------cagaagctgtcggccgccgaaggcaccccga 577

X03038 568 aatacca---aatacgcgaaagttgacggcac---caagccggt------ 605
||||||| .|| ||| .|..|.||||.| |.|||.|.|
KAD_PSEAE 578 aataccacagcat-cgc---cggcgtcggctcggtcgagcagatcaccgc 623

X03038 606 -----tgctgaagttc-gcgctgatctggaaaaaatcctcggctaa 645
|||| ||| ||.||||.|||.
KAD_PSEAE 624 gaaagtgct----ttcggccctgagctga----------------- 648

Из таблицы хорошо видно, что нуклеотидное выравнивание по проценту Identities немного лучше белкового, что и понятно: замена одной буквы приводит к замене белка, в то время как в нуклеотидном выравнивании это приведёт к замене 1 из 3-х нуклеотидов, что не так сильно скажется на проценте Identities. Заметим, что в нуклеотидном выранивании процент гэпов больше, чем в белковом.

Однако, не смотря на это белки очень похожи. В таком случае доверять надо белковому выравниванию, поскольку оно биологически обосновано.

В соответствии с сайтом http://coot.embl.de/pal2nal/,  PAL2NAL - это программа, позволяющая переводить множественное белковое выравнивание и соответствующие последовательности ДНК (или мРНК) в выравнивание с разбивкой на кодоны. Программа автоматически определяет соответствующую последовательность кодонов, даже если поданные на вход последовательности ДНК и белкка имеют несоответствия, или последовательность ДНК содержит UTR или богатые A участки.Она также может работать со сдвигом рамки в подаваемой последовательности, что удобно при анализе псевдогенов. Для полученного в результате выравнивания кодонов можно подсчитать число синонимичных (KS) и несинонимичных (KA) замен. Если программе подаются на вход две последовательности, PAL2NAL автоматически вычисляет KS и KA при помощи программы PAML.

Программа разработана:

Mikita Suyama, David Torrents, and Peer Bork (2006)
PAL2NAL: robust conversion of protein sequence alignments into the corresponding codon alignments.
Nucleic Acids Res. 34, W609-W612.  
С помощью программы PAL2NAL было получено выравнивание сравниваемых генов с разбивкой на кодоны. На вход программе подавались файлы в формате fasta: белковое выравнивание, полученное в результате работы программы needle и соответствующие нуклеотидные последовательности. Был выбран формат выдачи "Codon with Amino acid". Полученное выравнивание с разбивкой на кодоны - в файле PAL2NAL_out.txt.

Сравним это выравнивание с полученным ранее нуклеотидным (сделанным прграммой needle):

PAL2NAL needle
              M   R   I   I   L   L   G   A   P   G   A   G   K   G   T   Q   A   Q   F   I
KAD_ECOLI atg cgt atc att ctg ctt ggc gct ccg ggc gcg ggg aaa ggg act cag gct cag ttc atc
M R V I L L G A P G A G K G T Q A R F I
KAD_PSEAE atg cgt gtg att ctg ctc ggg gca ccc ggt gcc ggc aaa ggc acc cag gca cgg ttc atc

M E K Y G I P Q I S T G D M L R A A V K
KAD_ECOLI atg gag aaa tat ggt att ccg caa atc tcc act ggc gat atg ctg cgt gct gcg gtc aaa
T E K F G I P Q I S T G D M L R A A V K
KAD_PSEAE acc gag aag ttc ggc att ccg cag atc tcc acc ggc gac atg ctg cgc gcc gca gtc aag

S G S E L G K Q A K D I M D A G K L V T
KAD_ECOLI tct ggc tcc gag ctg ggt aaa caa gca aaa gac att atg gat gct ggc aaa ctg gtc acc
A G S P L G Q Q V K G V M D S G G L V S
KAD_PSEAE gcc ggc agc ccg ctc ggc cag cag gtg aaa ggc gtg atg gac agc ggc ggc ctg gta tcc

D E L V I A L V K E R I A Q E D C R N G
KAD_ECOLI gac gaa ctg gtg atc gcg ctg gtt aaa gag cgc att gct cag gaa gac tgc cgt aat ggt
D D I I I A L I K E R I T E A D C A K G
KAD_PSEAE gac gac atc atc atc gcc ctg atc aag gaa cgc atc acc gag gcc gat tgc gcc aag ggc

F L L D G F P R T I P Q A D A M K E A G
KAD_ECOLI ttc ctg ttg gac ggc ttc ccg cgt acc att ccg cag gca gac gcg atg aaa gaa gcg ggc
F L F D G F P R T I P Q A E A L K D A G
KAD_PSEAE ttc ctg ttc gac ggc ttc ccg cgg acc atc ccg cag gcc gaa gcg ctg aag gac gcc ggc

I N V D Y V L E F D V P D E L I V D R I
KAD_ECOLI atc aat gtt gat tac gtt ctg gaa ttc gac gta ccg gac gaa ctg atc gtt gac cgt atc
V T I D H V V E I A V D D E E I V S R I
KAD_PSEAE gtg acc atc gac cat gtg gtc gag atc gcc gtc gac gac gag gag atc gtg tcg cgt atc

V G R R V H A P S G R V Y H V K F N P P
KAD_ECOLI gtc ggt cgc cgc gtt cat gcg ccg tct ggt cgt gtt tat cac gtt aaa ttc aat ccg ccg
A G R R V H P A S G R V Y H T E H N P P
KAD_PSEAE gcc ggt cgt cgc gtg cat ccg gcc tcc ggc cgc gtg tac cac acc gag cac aac ccg ccg

K V E G K D D V T G E E L T T R K D D Q
KAD_ECOLI aaa gta gaa ggc aaa gac gac gtt acc ggt gaa gaa ctg act acc cgt aaa gat gat cag
K V A G K D D V T G E E L I Q R E D D K
KAD_PSEAE aag gtc gcc ggc aag gac gac gtt acc ggc gaa gag ctg atc cag cgc gag gac gac aag

E E T V R K R L V E Y H Q M T A P L I G
KAD_ECOLI gaa gag acc gta cgt aaa cgt ctg gtt gaa tac cat cag atg aca gca ccg ctg atc ggc
E E T V R H R L S V Y H S Q T K P L V D
KAD_PSEAE gaa gag acc gtg cgt cac cgc ctg tcg gtc tac cat tcg cag acc aag ccg ctg gtc gac

Y Y S K - E A E A G N T K Y A K V D G T
KAD_ECOLI tac tac tcc aaa --- gaa gca gaa gcg ggt aat acc aaa tac gcg aaa gtt gac ggc acc
F Y Q K L S A A E G T P K Y H S I A G V
KAD_PSEAE ttc tac cag aag ctg tcg gcc gcc gaa ggc acc ccg aaa tac cac agc atc gcc ggc gtc

K P V A E V R A D L E K I L G - - -
KAD_ECOLI aag ccg gtt gct gaa gtt cgc gct gat ctg gaa aaa atc ctc ggc --- --- ---
G S V E Q I T A - - - K V L S A L S
KAD_PSEAE ggc tcg gtc gag cag atc acc gcg --- --- --- aaa gtg ctt tcg gcc ctg agc
KAD_ECOLI          1 atgcgtatcattctgcttggcgctccgggcgcggggaaagggactcaggc     50
||||||.|.||||||||.||.||.||.||.||.||.|||||.||.|||||
KAD_PSEAE 1 atgcgtgtgattctgctcggggcacccggtgccggcaaaggcacccaggc 50

KAD_ECOLI 51 tcagttcatcatggagaaatatggtattccgcaaatctccactggcgata 100
.|.||||||||..|||||.|..||.||||||||.||||||||.|||||.|
KAD_PSEAE 51 acggttcatcaccgagaagttcggcattccgcagatctccaccggcgaca 100

KAD_ECOLI 101 tgctgcgtgctgcggtcaaatctggctccgagctgggtaaacaagca--- 147
|||||||.||.||.|||||..|.|||..|..|||.|| |.||||
KAD_PSEAE 101 tgctgcgcgccgcagtcaaggccggcagcccgctcgg----ccagcaggt 146

KAD_ECOLI 148 -aaagacattatgga-tgctggcaaactggtcaccgacgaactggtgatc 195
||||.|.|.||||| .|| |||...|||||..|||||||..|..|.|||
KAD_PSEAE 147 gaaaggcgtgatggacagc-ggcggcctggtatccgacgacatcatcatc 195

KAD_ECOLI 196 gcgctggttaaagagcgcattgctcaggaagactgccgtaatggtttcct 245
||.|||.|.||.||.|||||..|..|||..||.|||...||.||.|||||
KAD_PSEAE 196 gccctgatcaaggaacgcatcaccgaggccgattgcgccaagggcttcct 245

KAD_ECOLI 246 gttggacggcttcccgcgtaccattccgcaggcagacgcgatgaaagaag 295
|||.||||||||||||||.|||||.||||||||.||.|||.||||.||.|
KAD_PSEAE 246 gttcgacggcttcccgcggaccatcccgcaggccgaagcgctgaaggacg 295

KAD_ECOLI 296 cgggcatcaatgttgattacgttctggaattcgacgtaccg--gacgaac 343
|.|||.|.|...|.||..|.||..|.||..|||.||| || |||||..
KAD_PSEAE 296 ccggcgtgaccatcgaccatgtggtcgagatcgccgt--cgacgacgagg 343

KAD_ECOLI 344 tgatcgttgac-cgtatcgtcggtcgccgcgttcatgcgccgtctggtcg 392
.||||| ||.| |||||||.||||||.|||||.|||.||.|.||.||.||
KAD_PSEAE 344 agatcg-tgtcgcgtatcgccggtcgtcgcgtgcatccggcctccggccg 392

KAD_ECOLI 393 tgtttatcacgttaaattcaatccgccgaaagtagaaggcaaagacgacg 442
.||.||.|||....|...|||.||||||||.||.|..|||||.|||||||
KAD_PSEAE 393 cgtgtaccacaccgagcacaacccgccgaaggtcgccggcaaggacgacg 442

KAD_ECOLI 443 ttaccggtgaagaactgactacc--cgtaaagatgatcaggaagagaccg 490
|||||||.|||||.|||| .|| ||..|.||.||..||||||||||||
KAD_PSEAE 443 ttaccggcgaagagctga--tccagcgcgaggacgacaaggaagagaccg 490

KAD_ECOLI 491 tacgtaaacgtctggttgaataccat---cagatgacagcaccgctgatc 537
|.|||.|.||.|||...|..|||||| ||||..| || ||||||.||
KAD_PSEAE 491 tgcgtcaccgcctgtcggtctaccattcgcagacca-ag--ccgctggtc 537

KAD_ECOLI 538 ggctactactccaaagaagcagaagcgg--------------------gt 567
|.||.|||| |||||||.| |.
KAD_PSEAE 538 gacttctac----------cagaagctgtcggccgccgaaggcaccccga 577

KAD_ECOLI 568 aatacca---aatacgcgaaagttgacggcac---caagccggt------ 605
||||||| .|| ||| .|..|.||||.| |.|||.|.|
KAD_PSEAE 578 aataccacagcat-cgc---cggcgtcggctcggtcgagcagatcaccgc 623

KAD_ECOLI 606 -----tgctgaagttc-gcgctgatctggaaaaaatcctcggctaa 645
|||| ||| ||.||||.|||.
KAD_PSEAE 624 gaaagtgct----ttcggccctgagctga----------------- 648
 Как видно из приведённой таблицы,  выравнивание, полученное с помощью программы PAL2NAL намного лучше полученного с помощью программы needle: гэпов значительно меньше, длина тех, что есть кратна трём - в то время как neddle строит выравнивание нуклеотидов как выравнивание белков - гэпы могут быть любой длины.
Это закономерно, поскольку программа PAL2NAL производит выравнивание на основании гораздо большего числа данных: помимо нуклеотидных последовательностей она имеет дело ещё и с последовательностями белков, а , следовательно, полученное таким образом выравнивание является биологически обоснованным в гораздо большей мере.
Для того, чтобы программа PAL2NAL подсчитала Ka/Ks, в опции меню "Remove gaps, inframe stop codons" было указано "Yes" - для подсчёта Ka/Ks нуклеотиды должны быть строго друг под другом, то есть не должно быть пропусков( гэпов) в выравнивании. Далее, была выбрана опция "Calculate KS and KA". Формат выдачи - "FASTA".
Synonymous (KS) and non-synonymous (KA) substitution rates calcualted by codeml in the PAML package:
KS = 1.8539
KA = 0.2657
KA/KS = 0.1433
Goldman, N. and Yang, Z. 1994. A codon-based model of nucleotide substitution for protein-coding DNA sequences. Molecular Biology and Evolution 11:725-736.

Вывод:

 Так как KA/KS = 0.1433 < 1, то можно сделать вывод о том, что имеет место стабилизирующий отбор.
  1. Дополнительное задание.


"..Есть данные, что белки, участующие в оплодотворении яйцеклетки (fertilization proteins) у моллюсков семейства Haliotidae находятся под давлением положительного отбора. Проверьте на конкретном примере.."

Были рассмотрены два белка: Q25012_9VEST из Haliotis assimilis и Q25034_HALCO из Haliotis corrugata Pink abalone.

Haliotis assimilis Haliotis corrugata Pink abalone
Haliotis assimilis Haliotis corrugata Pink abalone

Были получены нуклеотидные последовательности генов, соответствующих этим белкам:  ген L36554_3 и ген L36590_3.
Также для выполнения этого задания при помощи программы needle было получено белковое выравнивание.

При помощи программы PAL2NAL вычислим соответствующее значение  KA/KS.
Synonymous (KS) and non-synonymous (KA) substitution rates calcualted by codeml in the PAML package:
KS = 0.7838
KA = 0.9226
KA/KS = 1.1772

Также при помощи программы PAL2NAL было получено выравнивание с разбивкой на кодоны. 

Вывод:

 Так как KA/KS = 1.1772 > 1, то можно сделать вывод о том, что имеет место положительный отбор, что можно объяснить функцией изучаемых белков - не желательно, чтобы сперматозоиды самца могли оплодотворить яйцеклетку самки другого вида, следовательно, белки, отвечающие за оплодотворение должны довольно быстро эволюционировать.

Протокол к занятию.



Главная  Первый семестр  Второй семестр  Третий семестр