-
Оценить давление отбора на ген заданного белка (работа с веб-сервером PAL2NAL).
"..Биологическая
задача состоит в том, чтобы оценить давление отбора на ген заданного
белка в период, начиная с момента расхождения
кишечной палочки и синегнойной палочки.." |
Синегнойная палочка (Pseudomonas aeruginosa) |
Кишечная палочка (Escherichia coli) |
|
|
Выполнение этого задания состоит из нескольких этапов.
Заданный мне белок - KAD_ECOLI, его AC - P69441, его
последовательность в формате fasta. Соответствующая ему аннотация в UniProt - Adenylate kinase (EC 2.7.4.3) (ATP-AMP transphosphorylase) (AK).
При помощи алгоритма программы blastp пакета BLAST был найден гомолог белка KAD_ECOLI в организме Pseudomonas aeruginosa с лучшим значением e-value (3e-76) и наибольшим ID (63%).
Далее представлено соответствующее выравнивание.
Score = 280 bits (717), Expect = 3e-76, Method: Compositional matrix adjust.
Identities = 135/214 (63%), Positives = 164/214 (76%), Gaps = 1/214 (0%)
Query 1 MRIILLGAPGAGKGTQAQFIMEKYGIPQISTGDMLRAAVKSGSELGKQAKDIMDAGKLVT 60
MR+ILLGAPGAGKGTQA+FI EK+GIPQISTGDMLRAAVK+GS LG+Q K +MD+G LV+
Sbjct 1 MRVILLGAPGAGKGTQARFITEKFGIPQISTGDMLRAAVKAGSPLGQQVKGVMDSGGLVS 60
Query 61 DELVIALVKERIAQEDCRNGFLLDGFPRTIPQADAMKEAGINVDYVLEFDVPDELIVDRI 120
D+++IAL+KERI + DC GFL DGFPRTIPQA+A+K+AG+ +D+V+E V DE IV RI
Sbjct 61 DDIIIALIKERITEADCAKGFLFDGFPRTIPQAEALKDAGVTIDHVVEIAVDDEEIVSRI 120
Query 121 VGRRVHAPSGRVYHVKFNPPKVEGKDDVTGEELTTRKDDQEETVRKRLVEYHQMTAPLIG 180
GRRVH SGRVYH + NPPKV GKDDVTGEEL R+DD+EETVR RL YH T PL+
Sbjct 121 AGRRVHPASGRVYHTEHNPPKVAGKDDVTGEELIQREDDKEETVRHRLSVYHSQTKPLVD 180
Query 181 YYSK-EAEAGNTKYAKVDGTKPVAEVRADLEKIL 213
+Y K A G KY + G V ++ A + L
Sbjct 181 FYQKLSAAEGTPKYHSIAGVGSVEQITAKVLSAL 214
|
Информация о найденном белке:
source 1..215
/organism="Pseudomonas aeruginosa PAO1"
/strain="PAO1"
/db_xref="taxon:208964"
Protein 1..215
/product="adenylate kinase"
/EC_number="2.7.4.3"
/calculated_mol_wt=22976
Region 1..215
/region_name="Adk"
/note="Adenylate kinase and related kinases [Nucleotide
transport and metabolism]; COG0563"
/db_xref="CDD:30909"
Region 2..206
/region_name="ADK"
/note="Adenylate kinase (ADK) catalyzes the reversible
phosphoryl transfer from adenosine triphosphates (ATP) to
adenosine monophosphates (AMP) and to yield adenosine
diphosphates (ADP); cd01428"
/db_xref="CDD:30189"
Site order(31,36,59,84..85,87..88,92)
/site_type="other"
/note="AMP-binding site"
/db_xref="CDD:30189"
Site order(36,84,88,123,167,171)
/site_type="other"
/note="ATP-AMP (Ap5A)-binding site"
/db_xref="CDD:30189"
CDS 1..215
/gene="adk"
/locus_tag="PA3686"
/coded_by="complement(NC_002516.2:4126948..4127595)"
/note="essential enzyme that recycles AMP in active cells;
converts ATP and AMP to two molecules of ADP"
/transl_table=11
/db_xref="GeneID:879082"
|
Как видно, описание найденного программой BLAST белка с наилучшим ID
- adenylate kinase - соответствует аннотации заданного белка,
поэтому, в соответствии с принятым определением ортологов как
"последовательности, совпадающие на 60-80% и имеющие похожую аннотацию
в UniProt", данную находку KAD_PSEAE и белок KAD_ECOLI можно
считать ортологами.
Текстовые файлы с последовательностями гипотетического ортолога и его гена.
При помощи программы
needle были построены попарные белковое и
нуклеотидное выравнивание с параметрами по умолчанию (более подробно с
использованными командами можно ознакомится в приложенном файле отчёта
в текстовом формате).
Последовательность гена, соответствующего белку KAD_ECOLI была получена при выполнении второго упражнения занятия
"Банк EMBL" третьего семестра. В результате, были получены два текстовых файла:
белковое выравнивание,
нуклеотидное выравнивание.
Проанализируем полученные выравнивания.
Белковое выравнивание |
|
Нуклеотидное выравнивание
|
218 |
Length |
696 |
136/218 |
Identity |
443/696 |
62.4% |
63.6% |
165/218 |
Similarity |
443/696 |
75.7% |
63.6% |
7/218 |
Gaps |
99/696 |
3.2% |
14.2% |
705.0 |
Score |
1349.0 |
KAD_ECOLI 1 MRIILLGAPGAGKGTQAQFIMEKYGIPQISTGDMLRAAVKSGSELGKQAK 50
||:||||||||||||||:||.||:||||||||||||||||:||.||:|.|
KAD_PSEAE 1 MRVILLGAPGAGKGTQARFITEKFGIPQISTGDMLRAAVKAGSPLGQQVK 50
KAD_ECOLI 51 DIMDAGKLVTDELVIALVKERIAQEDCRNGFLLDGFPRTIPQADAMKEAG 100
.:||:|.||:|:::|||:||||.:.||..|||.||||||||||:|:|:||
KAD_PSEAE 51 GVMDSGGLVSDDIIIALIKERITEADCAKGFLFDGFPRTIPQAEALKDAG 100
KAD_ECOLI 101 INVDYVLEFDVPDELIVDRIVGRRVHAPSGRVYHVKFNPPKVEGKDDVTG 150
:.:|:|:|..|.||.||.||.|||||..||||||.:.|||||.|||||||
KAD_PSEAE 101 VTIDHVVEIAVDDEEIVSRIAGRRVHPASGRVYHTEHNPPKVAGKDDVTG 150
KAD_ECOLI 151 EELTTRKDDQEETVRKRLVEYHQMTAPLIGYYSK-EAEAGNTKYAKVDGT 199
|||..|:||:|||||.||..||..|.||:.:|.| .|..|..||..:.|.
KAD_PSEAE 151 EELIQREDDKEETVRHRLSVYHSQTKPLVDFYQKLSAAEGTPKYHSIAGV 200
KAD_ECOLI 200 KPVAEVRADLEKILG--- 214
..|.::.| |:|.
KAD_PSEAE 201 GSVEQITA---KVLSALS 215
|
|
X03038 1 atgcgtatcattctgcttggcgctccgggcgcggggaaagggactcaggc 50 ||||||.|.||||||||.||.||.||.||.||.||.|||||.||.||||| KAD_PSEAE 1 atgcgtgtgattctgctcggggcacccggtgccggcaaaggcacccaggc 50
X03038 51 tcagttcatcatggagaaatatggtattccgcaaatctccactggcgata 100 .|.||||||||..|||||.|..||.||||||||.||||||||.|||||.| KAD_PSEAE 51 acggttcatcaccgagaagttcggcattccgcagatctccaccggcgaca 100
X03038 101 tgctgcgtgctgcggtcaaatctggctccgagctgggtaaacaagca--- 147 |||||||.||.||.|||||..|.|||..|..|||.|| |.|||| KAD_PSEAE 101 tgctgcgcgccgcagtcaaggccggcagcccgctcgg----ccagcaggt 146
X03038 148 -aaagacattatgga-tgctggcaaactggtcaccgacgaactggtgatc 195 ||||.|.|.||||| .|| |||...|||||..|||||||..|..|.||| KAD_PSEAE 147 gaaaggcgtgatggacagc-ggcggcctggtatccgacgacatcatcatc 195
X03038 196 gcgctggttaaagagcgcattgctcaggaagactgccgtaatggtttcct 245 ||.|||.|.||.||.|||||..|..|||..||.|||...||.||.||||| KAD_PSEAE 196 gccctgatcaaggaacgcatcaccgaggccgattgcgccaagggcttcct 245
X03038 246 gttggacggcttcccgcgtaccattccgcaggcagacgcgatgaaagaag 295 |||.||||||||||||||.|||||.||||||||.||.|||.||||.||.| KAD_PSEAE 246 gttcgacggcttcccgcggaccatcccgcaggccgaagcgctgaaggacg 295
X03038 296 cgggcatcaatgttgattacgttctggaattcgacgtaccg--gacgaac 343 |.|||.|.|...|.||..|.||..|.||..|||.||| || |||||.. KAD_PSEAE 296 ccggcgtgaccatcgaccatgtggtcgagatcgccgt--cgacgacgagg 343
X03038 344 tgatcgttgac-cgtatcgtcggtcgccgcgttcatgcgccgtctggtcg 392 .||||| ||.| |||||||.||||||.|||||.|||.||.|.||.||.|| KAD_PSEAE 344 agatcg-tgtcgcgtatcgccggtcgtcgcgtgcatccggcctccggccg 392
X03038 393 tgtttatcacgttaaattcaatccgccgaaagtagaaggcaaagacgacg 442 .||.||.|||....|...|||.||||||||.||.|..|||||.||||||| KAD_PSEAE 393 cgtgtaccacaccgagcacaacccgccgaaggtcgccggcaaggacgacg 442
X03038 443 ttaccggtgaagaactgactacc--cgtaaagatgatcaggaagagaccg 490 |||||||.|||||.|||| .|| ||..|.||.||..|||||||||||| KAD_PSEAE 443 ttaccggcgaagagctga--tccagcgcgaggacgacaaggaagagaccg 490
X03038 491 tacgtaaacgtctggttgaataccat---cagatgacagcaccgctgatc 537 |.|||.|.||.|||...|..|||||| ||||..| || ||||||.|| KAD_PSEAE 491 tgcgtcaccgcctgtcggtctaccattcgcagacca-ag--ccgctggtc 537
X03038 538 ggctactactccaaagaagcagaagcgg--------------------gt 567 |.||.|||| |||||||.| |. KAD_PSEAE 538 gacttctac----------cagaagctgtcggccgccgaaggcaccccga 577
X03038 568 aatacca---aatacgcgaaagttgacggcac---caagccggt------ 605 ||||||| .|| ||| .|..|.||||.| |.|||.|.| KAD_PSEAE 578 aataccacagcat-cgc---cggcgtcggctcggtcgagcagatcaccgc 623
X03038 606 -----tgctgaagttc-gcgctgatctggaaaaaatcctcggctaa 645 |||| ||| ||.||||.|||. KAD_PSEAE 624 gaaagtgct----ttcggccctgagctga----------------- 648
|
Из таблицы хорошо
видно, что нуклеотидное выравнивание по проценту
Identities немного лучше белкового, что и понятно: замена одной
буквы приводит к замене белка, в то время как в нуклеотидном
выравнивании это приведёт к замене 1 из 3-х нуклеотидов, что не так
сильно скажется на проценте Identities. Заметим, что в нуклеотидном
выранивании процент
гэпов больше, чем в белковом.
Однако, не смотря на это белки очень похожи. В таком случае доверять
надо белковому выравниванию, поскольку оно биологически обосновано.
В соответствии с сайтом
http://coot.embl.de/pal2nal/,
PAL2NAL - это программа, позволяющая переводить множественное белковое
выравнивание и соответствующие последовательности ДНК (или мРНК) в
выравнивание с разбивкой на кодоны. Программа автоматически определяет
соответствующую последовательность кодонов, даже если поданные на вход
последовательности ДНК и белкка имеют несоответствия, или
последовательность ДНК содержит UTR или богатые A участки.Она также
может работать со сдвигом рамки в подаваемой последовательности, что
удобно при анализе псевдогенов. Для полученного в результате
выравнивания кодонов можно подсчитать число синонимичных (
KS) и несинонимичных (
KA) замен. Если программе подаются на вход две последовательности, PAL2NAL автоматически вычисляет
KS и
KA при помощи программы
PAML.
Программа разработана:
Mikita Suyama, David Torrents, and Peer Bork (2006)
PAL2NAL: robust conversion of protein sequence alignments into the corresponding codon alignments.
Nucleic Acids Res. 34, W609-W612.
- Построение нуклеотидного выравнивания с разбивкой на кодоны.
С помощью программы
PAL2NAL было получено выравнивание сравниваемых генов с разбивкой на кодоны. На вход программе подавались файлы в формате fasta:
белковое выравнивание, полученное в результате работы программы
needle и соответствующие
нуклеотидные последовательности. Был выбран формат выдачи "Codon with Amino acid". Полученное выравнивание с разбивкой на кодоны - в файле
PAL2NAL_out.txt.
Сравним это выравнивание с полученным ранее нуклеотидным (сделанным прграммой needle):
PAL2NAL |
needle |
M R I I L L G A P G A G K G T Q A Q F I KAD_ECOLI atg cgt atc att ctg ctt ggc gct ccg ggc gcg ggg aaa ggg act cag gct cag ttc atc M R V I L L G A P G A G K G T Q A R F I KAD_PSEAE atg cgt gtg att ctg ctc ggg gca ccc ggt gcc ggc aaa ggc acc cag gca cgg ttc atc
M E K Y G I P Q I S T G D M L R A A V K KAD_ECOLI atg gag aaa tat ggt att ccg caa atc tcc act ggc gat atg ctg cgt gct gcg gtc aaa T E K F G I P Q I S T G D M L R A A V K KAD_PSEAE acc gag aag ttc ggc att ccg cag atc tcc acc ggc gac atg ctg cgc gcc gca gtc aag
S G S E L G K Q A K D I M D A G K L V T KAD_ECOLI tct ggc tcc gag ctg ggt aaa caa gca aaa gac att atg gat gct ggc aaa ctg gtc acc A G S P L G Q Q V K G V M D S G G L V S KAD_PSEAE gcc ggc agc ccg ctc ggc cag cag gtg aaa ggc gtg atg gac agc ggc ggc ctg gta tcc
D E L V I A L V K E R I A Q E D C R N G KAD_ECOLI gac gaa ctg gtg atc gcg ctg gtt aaa gag cgc att gct cag gaa gac tgc cgt aat ggt D D I I I A L I K E R I T E A D C A K G KAD_PSEAE gac gac atc atc atc gcc ctg atc aag gaa cgc atc acc gag gcc gat tgc gcc aag ggc
F L L D G F P R T I P Q A D A M K E A G KAD_ECOLI ttc ctg ttg gac ggc ttc ccg cgt acc att ccg cag gca gac gcg atg aaa gaa gcg ggc F L F D G F P R T I P Q A E A L K D A G KAD_PSEAE ttc ctg ttc gac ggc ttc ccg cgg acc atc ccg cag gcc gaa gcg ctg aag gac gcc ggc
I N V D Y V L E F D V P D E L I V D R I KAD_ECOLI atc aat gtt gat tac gtt ctg gaa ttc gac gta ccg gac gaa ctg atc gtt gac cgt atc V T I D H V V E I A V D D E E I V S R I KAD_PSEAE gtg acc atc gac cat gtg gtc gag atc gcc gtc gac gac gag gag atc gtg tcg cgt atc
V G R R V H A P S G R V Y H V K F N P P KAD_ECOLI gtc ggt cgc cgc gtt cat gcg ccg tct ggt cgt gtt tat cac gtt aaa ttc aat ccg ccg A G R R V H P A S G R V Y H T E H N P P KAD_PSEAE gcc ggt cgt cgc gtg cat ccg gcc tcc ggc cgc gtg tac cac acc gag cac aac ccg ccg
K V E G K D D V T G E E L T T R K D D Q KAD_ECOLI aaa gta gaa ggc aaa gac gac gtt acc ggt gaa gaa ctg act acc cgt aaa gat gat cag K V A G K D D V T G E E L I Q R E D D K KAD_PSEAE aag gtc gcc ggc aag gac gac gtt acc ggc gaa gag ctg atc cag cgc gag gac gac aag
E E T V R K R L V E Y H Q M T A P L I G KAD_ECOLI gaa gag acc gta cgt aaa cgt ctg gtt gaa tac cat cag atg aca gca ccg ctg atc ggc E E T V R H R L S V Y H S Q T K P L V D KAD_PSEAE gaa gag acc gtg cgt cac cgc ctg tcg gtc tac cat tcg cag acc aag ccg ctg gtc gac
Y Y S K - E A E A G N T K Y A K V D G T KAD_ECOLI tac tac tcc aaa --- gaa gca gaa gcg ggt aat acc aaa tac gcg aaa gtt gac ggc acc F Y Q K L S A A E G T P K Y H S I A G V KAD_PSEAE ttc tac cag aag ctg tcg gcc gcc gaa ggc acc ccg aaa tac cac agc atc gcc ggc gtc
K P V A E V R A D L E K I L G - - - KAD_ECOLI aag ccg gtt gct gaa gtt cgc gct gat ctg gaa aaa atc ctc ggc --- --- --- G S V E Q I T A - - - K V L S A L S KAD_PSEAE ggc tcg gtc gag cag atc acc gcg --- --- --- aaa gtg ctt tcg gcc ctg agc
|
KAD_ECOLI 1 atgcgtatcattctgcttggcgctccgggcgcggggaaagggactcaggc 50 ||||||.|.||||||||.||.||.||.||.||.||.|||||.||.||||| KAD_PSEAE 1 atgcgtgtgattctgctcggggcacccggtgccggcaaaggcacccaggc 50
KAD_ECOLI 51 tcagttcatcatggagaaatatggtattccgcaaatctccactggcgata 100 .|.||||||||..|||||.|..||.||||||||.||||||||.|||||.| KAD_PSEAE 51 acggttcatcaccgagaagttcggcattccgcagatctccaccggcgaca 100
KAD_ECOLI 101 tgctgcgtgctgcggtcaaatctggctccgagctgggtaaacaagca--- 147 |||||||.||.||.|||||..|.|||..|..|||.|| |.|||| KAD_PSEAE 101 tgctgcgcgccgcagtcaaggccggcagcccgctcgg----ccagcaggt 146
KAD_ECOLI 148 -aaagacattatgga-tgctggcaaactggtcaccgacgaactggtgatc 195 ||||.|.|.||||| .|| |||...|||||..|||||||..|..|.||| KAD_PSEAE 147 gaaaggcgtgatggacagc-ggcggcctggtatccgacgacatcatcatc 195
KAD_ECOLI 196 gcgctggttaaagagcgcattgctcaggaagactgccgtaatggtttcct 245 ||.|||.|.||.||.|||||..|..|||..||.|||...||.||.||||| KAD_PSEAE 196 gccctgatcaaggaacgcatcaccgaggccgattgcgccaagggcttcct 245
KAD_ECOLI 246 gttggacggcttcccgcgtaccattccgcaggcagacgcgatgaaagaag 295 |||.||||||||||||||.|||||.||||||||.||.|||.||||.||.| KAD_PSEAE 246 gttcgacggcttcccgcggaccatcccgcaggccgaagcgctgaaggacg 295
KAD_ECOLI 296 cgggcatcaatgttgattacgttctggaattcgacgtaccg--gacgaac 343 |.|||.|.|...|.||..|.||..|.||..|||.||| || |||||.. KAD_PSEAE 296 ccggcgtgaccatcgaccatgtggtcgagatcgccgt--cgacgacgagg 343
KAD_ECOLI 344 tgatcgttgac-cgtatcgtcggtcgccgcgttcatgcgccgtctggtcg 392 .||||| ||.| |||||||.||||||.|||||.|||.||.|.||.||.|| KAD_PSEAE 344 agatcg-tgtcgcgtatcgccggtcgtcgcgtgcatccggcctccggccg 392
KAD_ECOLI 393 tgtttatcacgttaaattcaatccgccgaaagtagaaggcaaagacgacg 442 .||.||.|||....|...|||.||||||||.||.|..|||||.||||||| KAD_PSEAE 393 cgtgtaccacaccgagcacaacccgccgaaggtcgccggcaaggacgacg 442
KAD_ECOLI 443 ttaccggtgaagaactgactacc--cgtaaagatgatcaggaagagaccg 490 |||||||.|||||.|||| .|| ||..|.||.||..|||||||||||| KAD_PSEAE 443 ttaccggcgaagagctga--tccagcgcgaggacgacaaggaagagaccg 490
KAD_ECOLI 491 tacgtaaacgtctggttgaataccat---cagatgacagcaccgctgatc 537 |.|||.|.||.|||...|..|||||| ||||..| || ||||||.|| KAD_PSEAE 491 tgcgtcaccgcctgtcggtctaccattcgcagacca-ag--ccgctggtc 537
KAD_ECOLI 538 ggctactactccaaagaagcagaagcgg--------------------gt 567 |.||.|||| |||||||.| |. KAD_PSEAE 538 gacttctac----------cagaagctgtcggccgccgaaggcaccccga 577
KAD_ECOLI 568 aatacca---aatacgcgaaagttgacggcac---caagccggt------ 605 ||||||| .|| ||| .|..|.||||.| |.|||.|.| KAD_PSEAE 578 aataccacagcat-cgc---cggcgtcggctcggtcgagcagatcaccgc 623
KAD_ECOLI 606 -----tgctgaagttc-gcgctgatctggaaaaaatcctcggctaa 645 |||| ||| ||.||||.|||. KAD_PSEAE 624 gaaagtgct----ttcggccctgagctga----------------- 648
|
Как видно из приведённой таблицы, выравнивание, полученное
с помощью программы PAL2NAL намного лучше полученного с помощью
программы needle: гэпов значительно меньше, длина тех, что есть кратна
трём - в то время как neddle строит выравнивание нуклеотидов как
выравнивание белков - гэпы могут быть любой длины.
Это закономерно, поскольку программа
PAL2NAL производит выравнивание на основании гораздо большего числа
данных: помимо нуклеотидных последовательностей она имеет дело ещё и с
последовательностями белков, а , следовательно, полученное таким
образом выравнивание является биологически обоснованным в гораздо
большей мере.
- Получение значений Ka/Ks для сравниваемых генов.
Для того, чтобы программа PAL2NAL подсчитала Ka/Ks, в опции меню
"Remove gaps, inframe stop codons" было указано "Yes" - для
подсчёта Ka/Ks нуклеотиды должны быть строго друг под другом, то
есть не должно быть пропусков( гэпов) в выравнивании. Далее, была
выбрана опция "Calculate
KS and
KA". Формат выдачи - "FASTA".
Synonymous (KS) and non-synonymous (KA) substitution rates calcualted by codeml in the PAML package: |
|
KS = 1.8539 |
|
KA = 0.2657 |
|
KA/KS = 0.1433 |
|
Goldman, N. and Yang, Z. 1994. A codon-based model of nucleotide substitution for protein-coding DNA sequences.
Molecular Biology and Evolution 11:725-736.
Вывод:
Так как
KA/
KS = 0.1433 < 1, то можно сделать вывод о том, что имеет место стабилизирующий отбор.
-
Дополнительное задание.
"..Есть данные, что белки, участующие в оплодотворении яйцеклетки
(fertilization proteins) у моллюсков семейства Haliotidae находятся под
давлением положительного отбора. Проверьте на конкретном примере.."
|
Были рассмотрены два белка: Q25012_9VEST из Haliotis assimilis и Q25034_HALCO из Haliotis corrugata Pink abalone.
Haliotis assimilis |
Haliotis corrugata Pink abalone |
|
|
Были получены нуклеотидные последовательности генов, соответствующих этим белкам: ген L36554_3 и ген L36590_3.
Также для выполнения этого задания при помощи программы needle было получено белковое выравнивание.
При помощи программы PAL2NAL вычислим соответствующее значение
KA/
KS.
Synonymous (KS) and non-synonymous (KA) substitution rates calcualted by codeml in the PAML package: |
|
KS = 0.7838 |
|
KA = 0.9226 |
|
KA/KS = 1.1772 |
|
Также при помощи программы PAL2NAL было получено
выравнивание с разбивкой на кодоны.
Вывод:
Так как
KA/
KS
= 1.1772 > 1, то можно сделать вывод о том, что имеет место
положительный отбор, что можно объяснить функцией изучаемых белков - не
желательно, чтобы сперматозоиды самца могли оплодотворить
яйцеклетку самки другого вида, следовательно, белки, отвечающие за
оплодотворение должны довольно быстро эволюционировать.
Протокол к занятию.
Главная Первый семестр Второй семестр Третий семестр