На главную страницу четвертого семестра pal2nal


Оценка давления отбора на ген белка AMPA_ECOLI

Цель этого упражнения состоит в том, чтобы определить характер давления отбора на ген белка AMPA_ECOLI с момента расхождения кишечной палочк и синегнойной палочки.
Файл с аминокислотной последовательностью был подан на вход программе blastp с целью найти ортолога в синегнойной палочке (Pseudomonas aeruginosa). Был найден белок AMPA_PSEA7, и, поскольку первая часть ID совпадает с ID исходного белка, было предположено, что они выполняют одну функцию. Однако, выравнивание исходной последовательности с предполагаемым ортологом имеет Identity всего лишь 55% :
Score =  551 bits (1419),  Expect = 3e-157, Method: Compositional matrix adjust.
 Identities = 275/498 (55%), Positives = 363/498 (72%), Gaps = 5/498 (1%)

Query  1    MEFSVKSGSPEKQRSACIVVGVFEPRRLSPIAEQLDKISDGYISALLRRGELEGKPGQTL  60
            MEF VKS  PE  ++A +V+ V E R+L   A+ +D  + G I A+L+RG+L GK GQTL
Sbjct  1    MEFLVKSVRPETLKTATLVLAVGEGRKLGASAKAVDDATGGAIGAVLKRGDLAGKVGQTL  60

Query  61   LLHHVPNVLSERILLIGCGKERELDERQYKQVIQKTINTLNDTGSMEAVCFLTELHVKGR  120
            LL ++PN+ +ER+LL+G GKEREL +RQY+++    ++TL      +AV  L +L VKGR
Sbjct  61   LLQNLPNLKAERVLLVGAGKERELGDRQYRKLASAVLSTLKGLAGADAVLALGDLAVKGR  120

Query  121  NNYWKVRQAVETAKETLYSFDQLKTNKSEPRRPLRKMVFNVPTRRELTSGERAIQHGLAI  180
            + + K R  VET  + LY FD+ K+ K+EP +   K +  +  + +  + E+  +   AI
Sbjct  121  DAHAKARLLVETLADGLYVFDRYKSQKAEPLK--LKKLTLLADKADSAAVEQGSKEAQAI  178

Query  181  AAGIKAAKDLGNMPPNICNAAYLASQARQLADSYSKNVITRVIGEQQMKELGMHSYLAVG  240
            A G+   +DLGN+PPN+C+  +L  QA+ LA  + K +   V  EQ+++ELGM S+LAV 
Sbjct  179  ANGMALTRDLGNLPPNVCHPTFLGEQAKALAKEF-KGLKVEVHDEQKLRELGMGSFLAVA  237

Query  241  QGSQNESLMSVIEYKGNASEDARPIVLVGKGLTFDSGGISIKPSEGMDEMKYDMCGAAAV  300
            QGS+    + V++Y G A +D  P VLVGKG+TFD+GGIS+KP  GMDEMK+DMCGAA+V
Sbjct  238  QGSEQPPRLIVLQYNG-AKKDQAPHVLVGKGITFDTGGISLKPGLGMDEMKFDMCGAASV  296

Query  301  YGVMRMVAELQLPINVIGVLAGCENMPGGRAYRPGDVLTTMSGQTVEVLNTDAEGRLVLC  360
            +G  R V ELQLPIN++G+LA  ENMP G A RPGD++TTMSGQTVE+LNTDAEGRLVLC
Sbjct  297  FGTFRAVLELQLPINLVGLLACAENMPSGGATRPGDIVTTMSGQTVEILNTDAEGRLVLC  356

Query  361  DVLTYVERFEPEAVIDVATLTGACVIALGHHITGLMANHNPLAHELIAASEQSGDRAWRL  420
            D LTY ERF+P++V+D+ATLTGAC++ALG + +GLM N+  L  +L+ A E + DRAW+L
Sbjct  357  DALTYAERFKPQSVVDIATLTGACIVALGSNTSGLMGNNEALVRQLLKAGEFADDRAWQL  416

Query  421  PLGDEYQEQLESNFADMANIGGRPGGAITAGCFLSRFTRKYNWAHLDIAGTAWRS-GKAK  479
            PL DEYQEQL+S FAD+ANIGG   G ITAGCFLSRF +KY+WAHLDIAGTAW S GK K
Sbjct  417  PLFDEYQEQLDSPFADIANIGGPKAGTITAGCFLSRFAKKYHWAHLDIAGTAWISGGKDK  476

Query  480  GATGRPVALLAQFLLNRA  497
            GATGRPV LL Q+LL RA
Sbjct  477  GATGRPVPLLTQYLLERA  494

При поиске этих белков в Uniprot (AMPA_PSEA7 и AMPA_ECOLI), выдаётся информация о их функциях: и тот и другой белок является лейциновой аминопептидазой, необходимой для процессинга внутриклеточных белков, а также катализирующей удаление незамещенных N-концевых аминокислот. Поскольку ортологами являются белки, схожие по функции, но находящиеся в разных организмах, то наверное можно пренебречь столь малым значением Identity и испольовать данные белки для дальнейших действий.
Для получения нуклеотидной последовательности гена белка AMPA_PSEA7 была использована программа tblastn, где на вход подавалась ранее полученная аминокислотная последовательность этого белка.
С целью попарного сравнения нуклеотидных и аминокислотных последовательностей данных белков, было проведенно глобальное выравнивание с помощью программы needle. При поверхностном рассмотрении, можно заметить, что выравнивания не совпадают. Это объясняется тем, что выравниваются не кодоны, а отдельные нуклеотиды, и открывается большое количество гэпов.

Работа с PAL2NAL

Теперь, имея некоторые сведения о данных белках, воспользуемся специальной программой PAL2NAL для конвертирования множественных выравниваний белков и соответствующих им нуклеотидных последовательностей в выравнивание кодонов. Ее возможности:

Воспользовавшись этой программой (запросив формат файла с результатами как "Кодон с аминокислотой"), получила следующие выравневание. В начале можно увидеть 9 предупреждений о несоответствии аминокислот кодонам.
Непосредственно для оценки давления естественного отбора используется подсчет Ka/Ks. Это отношение несинонимичных замен нуклеотидов к синонимичным. Для подсчета Ka/Ks, были использованы опции Remove gaps, inframe stop codons :Calculate KS and KA, а также Remove mismatches, т.к. в предыдущий раз PAL2NAL выдал сообщение о несовпадениях, в качестве формата выхада указала FASTA. Кроме того, прищлось отредактировать аминокислотное выравнивание, т.к. эта программа оказалась весьма требовательна к формату.
В итоге, были получены следующие значения:PAL2NALoutput.txt. Поскольку значение Ka/Ks оказалось намного меньше единицы, то можно предположить, что отбор, влиявший на эти белки, был стабилизирующим.
©Попенко Анна