На главную страницу четвертого семестра
pal2nal
Оценка давления отбора на ген белка AMPA_ECOLI
Цель этого упражнения состоит в том, чтобы определить характер давления отбора на ген белка AMPA_ECOLI с момента расхождения
кишечной палочк и синегнойной палочки.
Файл с аминокислотной последовательностью был подан на вход программе blastp с целью
найти ортолога в синегнойной палочке (Pseudomonas aeruginosa). Был найден белок AMPA_PSEA7, и, поскольку первая
часть ID совпадает с ID исходного белка, было предположено, что они выполняют одну функцию.
Однако, выравнивание исходной последовательности с предполагаемым ортологом имеет Identity всего лишь 55% :
Score = 551 bits (1419), Expect = 3e-157, Method: Compositional matrix adjust.
Identities = 275/498 (55%), Positives = 363/498 (72%), Gaps = 5/498 (1%)
Query 1 MEFSVKSGSPEKQRSACIVVGVFEPRRLSPIAEQLDKISDGYISALLRRGELEGKPGQTL 60
MEF VKS PE ++A +V+ V E R+L A+ +D + G I A+L+RG+L GK GQTL
Sbjct 1 MEFLVKSVRPETLKTATLVLAVGEGRKLGASAKAVDDATGGAIGAVLKRGDLAGKVGQTL 60
Query 61 LLHHVPNVLSERILLIGCGKERELDERQYKQVIQKTINTLNDTGSMEAVCFLTELHVKGR 120
LL ++PN+ +ER+LL+G GKEREL +RQY+++ ++TL +AV L +L VKGR
Sbjct 61 LLQNLPNLKAERVLLVGAGKERELGDRQYRKLASAVLSTLKGLAGADAVLALGDLAVKGR 120
Query 121 NNYWKVRQAVETAKETLYSFDQLKTNKSEPRRPLRKMVFNVPTRRELTSGERAIQHGLAI 180
+ + K R VET + LY FD+ K+ K+EP + K + + + + + E+ + AI
Sbjct 121 DAHAKARLLVETLADGLYVFDRYKSQKAEPLK--LKKLTLLADKADSAAVEQGSKEAQAI 178
Query 181 AAGIKAAKDLGNMPPNICNAAYLASQARQLADSYSKNVITRVIGEQQMKELGMHSYLAVG 240
A G+ +DLGN+PPN+C+ +L QA+ LA + K + V EQ+++ELGM S+LAV
Sbjct 179 ANGMALTRDLGNLPPNVCHPTFLGEQAKALAKEF-KGLKVEVHDEQKLRELGMGSFLAVA 237
Query 241 QGSQNESLMSVIEYKGNASEDARPIVLVGKGLTFDSGGISIKPSEGMDEMKYDMCGAAAV 300
QGS+ + V++Y G A +D P VLVGKG+TFD+GGIS+KP GMDEMK+DMCGAA+V
Sbjct 238 QGSEQPPRLIVLQYNG-AKKDQAPHVLVGKGITFDTGGISLKPGLGMDEMKFDMCGAASV 296
Query 301 YGVMRMVAELQLPINVIGVLAGCENMPGGRAYRPGDVLTTMSGQTVEVLNTDAEGRLVLC 360
+G R V ELQLPIN++G+LA ENMP G A RPGD++TTMSGQTVE+LNTDAEGRLVLC
Sbjct 297 FGTFRAVLELQLPINLVGLLACAENMPSGGATRPGDIVTTMSGQTVEILNTDAEGRLVLC 356
Query 361 DVLTYVERFEPEAVIDVATLTGACVIALGHHITGLMANHNPLAHELIAASEQSGDRAWRL 420
D LTY ERF+P++V+D+ATLTGAC++ALG + +GLM N+ L +L+ A E + DRAW+L
Sbjct 357 DALTYAERFKPQSVVDIATLTGACIVALGSNTSGLMGNNEALVRQLLKAGEFADDRAWQL 416
Query 421 PLGDEYQEQLESNFADMANIGGRPGGAITAGCFLSRFTRKYNWAHLDIAGTAWRS-GKAK 479
PL DEYQEQL+S FAD+ANIGG G ITAGCFLSRF +KY+WAHLDIAGTAW S GK K
Sbjct 417 PLFDEYQEQLDSPFADIANIGGPKAGTITAGCFLSRFAKKYHWAHLDIAGTAWISGGKDK 476
Query 480 GATGRPVALLAQFLLNRA 497
GATGRPV LL Q+LL RA
Sbjct 477 GATGRPVPLLTQYLLERA 494
При поиске этих белков в Uniprot (AMPA_PSEA7 и AMPA_ECOLI), выдаётся информация о их функциях: и тот и другой белок является лейциновой аминопептидазой, необходимой для процессинга внутриклеточных белков, а также катализирующей удаление незамещенных N-концевых аминокислот. Поскольку ортологами являются белки, схожие по функции, но находящиеся в разных организмах, то наверное можно пренебречь столь малым значением Identity и испольовать данные белки для дальнейших действий.
Для получения нуклеотидной последовательности гена белка AMPA_PSEA7 была использована программа tblastn, где на вход подавалась ранее полученная аминокислотная последовательность этого белка.
С целью попарного сравнения нуклеотидных и аминокислотных последовательностей данных белков, было проведенно глобальное выравнивание с помощью программы needle. При поверхностном рассмотрении, можно заметить, что выравнивания не совпадают. Это объясняется тем, что выравниваются не кодоны, а отдельные нуклеотиды, и открывается большое количество гэпов.
Работа с PAL2NAL
Теперь, имея некоторые сведения о данных белках, воспользуемся специальной программой PAL2NAL для конвертирования множественных выравниваний белков и соответствующих им нуклеотидных последовательностей в выравнивание кодонов. Ее возможности:
- Программа выполняет свою функцию, даже если поданная на вход ДНК не полностью соответсвует введенной последовательности белка.
- Она также справляется со сдвигами рамки, что помогает анализировать псевдогены.
- Полученное выравнивание кодонов может быть в последствие использована для подсчета синонимических (Ks) и несинонимических (Ka) замен.
Воспользовавшись этой программой (запросив формат файла с результатами как "Кодон с аминокислотой"), получила следующие выравневание. В начале можно увидеть 9 предупреждений о несоответствии аминокислот кодонам.
Непосредственно для оценки давления естественного отбора используется подсчет Ka/Ks. Это отношение несинонимичных замен нуклеотидов к синонимичным.
Для подсчета Ka/Ks, были использованы опции Remove gaps, inframe stop codons :Calculate KS and KA, а также Remove mismatches, т.к. в предыдущий раз PAL2NAL выдал сообщение о несовпадениях, в качестве формата выхада указала FASTA. Кроме того, прищлось отредактировать аминокислотное выравнивание, т.к.
эта программа оказалась весьма требовательна к формату.
В итоге, были получены следующие значения:PAL2NALoutput.txt. Поскольку значение Ka/Ks оказалось намного меньше единицы, то можно предположить, что отбор, влиявший на эти белки, был стабилизирующим.
©Попенко Анна