На главную страницу четвертого семестра.

Дополнительные задания.

Задание № 1. Проверка выполнения правила фон Хейне в структуре цепи А белка 1VF5 (белка-прототипа, по данным ОРМ) и в топологии, предсказанной ТMHMM


Для проверки правила фон Хейне были проделаны следующие операции. В выравнивании последовательнотей белка-прототипа и анализируемого белка с добавленной строкой ОРМ произведен поиск остатков лизина и аргинина с помощью поисковой программы Genedoc. Найденные остатки были выделены голубым цветом. Рисунок приведен ниже:



Затем для анализа количественного соотношения остатков аргинина и лизина в разных тиллакоидных (внешних) и стромальных (="внутренних") петлях была составлена следующая таблица:

соотношение количества остатков аргинина и лизина, находящихся во внутренних и внешних петлях согласно топологии ОМР и ТМНММ для последовательностей белка-прототипа и анализируемого белка.
топология тип петли количество остатков аргинина и лизина в петли общее количество остатков в петелях данного типа процентное содержание
ОМР (для последовательности цепи А белка 1VF5) внутренние (стромальные) 7 47 0,15
внешние (тиллакоидные петли) 6 84 0,07
ТМНММ (для последовательности анализируемого белка Q116S5) внутренние (стромальные) 9 58 0,16
внешние (тиллакоидные петли) 5 72 0,07


В принципе, уже из полученных результатов таблицы, видно, что правило фон Хейне выполняется с очень хорошей точностью: процентное содержание остатков аргинина и лизина во внутренних петлях превышает содержание таких же аминокислот в более чем два раза!!! (0,15/0,07 = 2,14 для топологии ОРМ и 0,16/0,07 = 2,29 для топологии ТМНММ). Но также выполнение данного правила можно проверить методами статистики, например для топологии ОРМ белка-прототипа. Действительно, есть выборка размером n = 47 а.о. (число аминокислот во внутренних петлях), в которой обнаружено r = 7 аргининов и лизинов в совокупности. Если аминокислоты распределены по участкам внутренних петель случайным образом, то, фактически, они образуют дискретное бернуллевское распределение.Так как интересует распределение остатков аргинина и лизина, то параметром распределения (или вероятностью успеха) будет число 2/20 = 1/10, так как из двадцати аминокислот вероятность того, что на определенном сайте будет аргинин или лизин, есть р = 0,1. Итак, проверим следующую гипотезу:
Н0: р = 0,1 - аргинин и лизин распределены по последовательностям внутренних петель случайным образом; против альтернативы:
Н1: р > 0,1 - аргинин и лизин распределены по последовательностям внутренних петель неслучайным образом, а частота их обнаружения в них больше (фактически, переформулированное правило фон Хейне).
Критическая область для гипотезы Н0 выглядит так:
S = {μn ≥ k}; а вероятность данного критического множества при верной нулевой гипотезе:
P0n ≥ k) = 1 - P0n ≤ k - 1); используя приближение большой выборки (теорему Муавра-Лапласа) для полученного выражения, перейдем к нормальному стандартному распределению:
P0([μn - np +0,5]/[np(1-p)]^1/2 ≥ [k - np +0,5]/[np(1-p)]^1/2) = 1 - Φ([k - 1 + 0,5 - np]/[np(1-p)]^1/2). В данном выражении добавлено слагаемое 0,5, так как такое выражение лучше аппроксимирует бернуллевское распределение нормальным. Вычислим Р-значение. Тогда при k = 7, n = 47, p = 0,1:
P0([μn - 4,2]/2,057 ≥ 1,36) = 1 - Φ(0,39) = 0,0869. Итак, на уровне значимости α = 0,1 имеем, что P0 = 0,0869 < 0,1 ; то гипотезу о случайном распределении аргинина и лизина Н0 отвергаем в пользу альтернативной гипотезы Н1, которая фактически формулируется как правило фон Хейне.
Итак, правило фон Хейне выполнено и справедливо для последовательностей заданного белка-прототипа и анализируемой последовательности.

Задание № 2. . Предсказание топологии мембранного белка Q116S5 на основе его профиля гидрофобности


Для построения профиля гидрофобности аминокислотной последовательности белка Q116S5 использовались данные программы pepwindow пакета EMBOSS, вызываемой из командной строки Unix. Данная программа восстанавливает метод предсказания трансмембранных участков или фрагменты, соответствующие поверхности белка. В качестве исходных данных, pepwindow использует последовательность белка и также шкалу гидрофобности, в которой каждому аминокислотному остатку приписано некоторое число - показатель гидрофобности его боковой группы. Причем по умолчанию используется шкала, созданная исследователями D. Eisenberg, E. Schwarz, M. Komaromy and R. Wall. (если конечно так переводится Enakai.dat). Затем программа рассматривает всю последовательность белка с помощью скользящего окна переменного размера, которое можно установить (в случае предсказания трансмембранных спиралей использовалось значение в 19 а.о.) и для каждого окна вычисляется среднее значение гидрофобности. И это значение приписывается аминокислотному остатку, находящемуся в центре такого окна. И из этих значений строится график.
Итак, программа использовалась следующим образом:
pepwindow interest.fasta -graph data -length 19
В результате из выходного файла копировались значения средней гидрофобности, рассчитанные для окна размером 19 а.о. - поэтому номера аминокислотных остатков в файле начинаются с номера 10 и заканчиваются 212 а.о., так как они являются центрами первого и последнего окна соответственно. Итак, из этих данных был построен график - профиль гидрофобности:



На графике красным цветом выделена граница = 1,7. Если значения средней гидропатичности превышают это значение, то они автоматически становятся "кандидатами" на включение в состав трансмембранного сегмента (такие точки выделены желтым). Затем из них составлялся окончательный состав трансмембранной спирали (такие точки выделены зеленым, метод отбора описан ниже).
На данном этапе уже видно, что метод гидрофобности предсказал только три трансмембранных сегмента (вместо четырех). Далее необходимо было определить границы найденных сегментов. Для сегмента №2 проблем не возникало: определен только один центр с значением средней гидрофобности больше 1,7. Поэтому в качестве трансмембранного сегмента №2 выбиралась данная точка: тогда сегмент оказывается длиной 19 а.о. (равен длине окна) с координатами: [123__141] (в скобках указаны номера аминокислотных остатков последовательности белка Q116S5). В случае сегментов №1 и №3 возникали следующие проблемы. Во-первых, сегменты перекрываются довольно сильно и между крайними и центральными точками есть "выбросы" - точки, для которых средняя гидрофобность ниже порогового значения. В этой ситуации решено было не учитывать крайние точки при расчете границ сегментов, для которых значение гидрофобности не сильно превосходит порог, а использовать только центральные точки, которые заключены между этими "выбросами". Для многих из них значение гидрофобности значительно превосходит порог. И во-вторых, встал вопрос как считать границы этих сегментов. Было решено определить их методами статистики. Действительно, если принять модель случайного распределения аминокислот по всей длине последовательности, то номер центрального остатка в окне представляет собой случайную величину, принимающей значения от 10 до 212, а расчетные значения гидрофобности окошка можно сопоставить вероятности того, что оно будет "гидрофобным", но только после нормировки на сумму всех значений исследуемых точек. Так, например, для сегмента №1 исследовалось семь точек, их значения гидрофобности суммировались и каждое число нормировалось на полученную сумму. Далее производились обычные манипуляции дл расчета математического ожидания с помощью Exel: сумма произведений "вероятностей" на значение случайной величины (абсциссы профиля гидрофобности). Также считалось стандартное отклонение: сперва высчитывался второй момент, затем дисперсия Var, тогда σ = (Var)^1/2. В конечном счете находилось значение границ интервала E ± σ. Таким образом высчитывался интервал центральных точек скользящих окошек, которые затем включались в трансмембранные сегменты. Если же числа в интервале получались дробными вида (а__в), то он приводился к виду [A__B], где А = ⌊а__в⌋ (нижнее целое число интервала (а__в), В = ⌈а__в⌉ (верхнее целое число интервала (а__в). Вообщем, профиль гидрофобности и все расчеты приведены в книге Exel, таблица с расчетами представлена ниже:



Оранжевым отмечены точки, вошедшие в трансмембранные спирали, желтым - точки-"кандидаты" на включение в трансмембранный сегмент. Итак, в результате произведенных действий, полученные границы использовались для разметки последовательности белка Q116S5 на интересующие элементы вторичной структуры. Для этого была создана копия marking2.msf, в которой строка ТМНММ была заменена на строку Hyd_pred, где и производилась разметка. Затем необходимо было определить тип петель: внутренние или внешние. Для этого использовалось правило фон Хейне. В целом, был проведен анализ последовательности Q116S5 аналогичным способом, как и в первом задании: методами Gеnedoc'a выделены все аргинины и лизины в последовательности, подсчитано их количество и процент содержания в определенном типе петли. В результате, получено следующее промежуточное изображение выравнивания:



На рисунке отмечены трансмембранные элементы, выделены голубым остатки лизина и аргинина в последовательности белка Q116S5, а тип петель пока не установлен. Согласно распределению аргининов и лизинов, произведено установление типа петли по правилу фон Хейне:

соотношение количества остатков аргинина и лизина, находящихся во внутренних и внешних петлях согласно топологии ОМР и ТМНММ для последовательностей белка-прототипа и анализируемого белка.
топология номер петли количество остатков аргинина и лизина в петли общее количество остатков в петли процентное содержание этих основных аминокислот
Hyd_pred (для последовательности Q116S5) №1 4 37 0,108
№2 7 62 0,113
№3 3 52 0,058
№4 2 9 0,222


Как видно из данных таблицы, петля №4 очень хорошо идентифицируется как внутренняя, а №3 - как внешняя (наибольший и наименьший процент содержания основных аминокислот). А петли №1 и №2 довольно не легко идентифицировать только по цифрам: отличия минимальны. Но так как часто в мембранных белках топология петель чередуется, то начиная отсчет с конца, можно приписать им следующее: петля №1 - внешняя, №2 - внутренняя, №3 - внешняя, №4 - внутренняя. А так, если посмотреть на расположение трансмембранных участков и сравнить со строкой "ОРМ", то видно, что статистический подход к определению границ трансмембранных сегментов довольно хорош: во всяком случае "на глазок" очень даже неплохо совпадают соответствующие участки (правда только три из четырех) друг с другом. Итак, при нанесении принятых условных обозначений ("+" - внутренние петли, "-" - внешние петли), имеем следующее выравнивание:



Как видно из рисунка, топология петель совпала только для последних трех петельных участков, тогда как первая петля, согласно расчетам по правилу фон Хейне, предсказана совершенно неверно: в строке Hyd_pred она определена как внешняя (тиллакоидная), тогда как в топологии ОРМ она достоверно идентифицирована как внутренняя (стромальная). Сбой в чередовании видимо связан с тем, что программа pepwindow, строящая необходимые данные для профиля гидрофобности, не идентифицировала ещё один трансмембранный сегмент, второй по счету от N-конца, отчего изменилась последовательность петель. Этот файкт более наглядно представлен ниже:



Синим отмечены внутренние петли, красным - внешние, фиолетовым - трансмембранные сегменты. Вообще существование данной модели in vivo можно подвегнуть серьезному сомнению, так как самая первая петля оказалась внешней (или тиллакоидной, так как белок-прототип оказался участником фотосинтеза). Если рассмотреть упрощенную схему встраивания альфа-спирального белка в плазмалемму, то становится ясным, что предсказанная топология Nout - Cin не может реализоваться в природе. Действительно, согласно литературным данным (Альбертс, Брей, Льюис) синтез трансмембранных белков либо идет одновременно с процессом встраивания белка в мембрану ЭПР (котрансляционно), либо по гипотетическому механизму встраивания синтезированного белка в мембрану ЭПР с помощью транслоказ, благодаря имеющимся в этой последовательности сигнальным участкам начала, продолжения и окончания транслокации. Первый механизм достоверно наблюдали при встраивании мембранного белка, но только один раз пронизывающего липидный бислой. Второй механизм - гипотетичный, но предполагается, что он реализуется для белков, которые несколько раз пронизывают мембрану. Но оба механизма едины в одном: процесс встраивания начинается на N-конце, где часто расположен сигнал старта транслокации. Согласно второму механизму, синтезированная последовательность протягивается через липидный бислой в виде шпильки: то есть сразу же образуется два трансмембранных участка и внешняя петля между ними. Процесс длится до тех пор, пока транслоказа не натолкнется на стоп-сигнал, запрещающий дальнейший перенос. Затем, если в белке есть ещё один гидрофобный старт-сигнал, то процесс повторяется снова. Как видно, механизм перенесения всегда начинается с N-конца, отчего он всегда оказывается со стороны цитоплазмы (обращенным внутрь). Тогда как С-конец, в зависимости от того, четное или нечетное количество раз белок пронизывает мембрану, может оказаться как с внутренней, так и внешней стороны мембраны. Поэтому, если программа pepwindow предсказывает три мембранных сегмента в белке, то согласно теории, можно ожидать топологию первой и последней петли так: Nin - Cout. Но правило фон Хейне противоречит ожидаемому результату, отчего можно ожидать, что топология трансмембранных сегментов была предсказана неверно. Вероятно, таким образом можно проверять результаты программ, предсказывающих топологию мембранных белков: хотя бы на вопрос количества трансмембранных сегментов.
Итак, сравним соответственно две топологии: "ОРМ" и "Hyd_Pred", между собой для последовательности белка Q116S5 использованным в основных заданиях приемом. В результате получим следующую таблицу данных:

  Число аминокислотных остатков (или доля а.о.)
Всего а.к. остатков 222
Остатки, предсказанные как локализованные в мембране (всего) 62
Правильно предсказано (true positives, TP) 59
Предсказано не то, что нужно (false positives, FP) 3
Правильно не предсказано (true negatives, TN) 135
Не предсказано то, что нужно (false negatives, FN) 25
Чувствительность (sensivity) = TP / (TP+FN) 0,70
Специфичность (specificity) = TN / (TN+FP) 0,98
Точность (precision) = TP / (TP+FP) 0,95
Сверхпредсказание = FP/ (FP+TP) 0,05
Недопредсказание = FN / (TN+FN) 0,16


При расчетах, возникла некоторая неопределенность: расчет значения true negatives, TN отражающего собой суммарную длину петель. Но тогда как с этим соотносится предсказанная топология петель, не ясно. Но решено было не обращать внимание на различия в локализации петель, так как программа pepwindow таких предсказаний не делает, а установление топологии производилось иным методом: по правилу фон Хейна. Да и по заданию не требуется учитывать их направление.
Итак, как видно из результатов таблицы, характеристики получились очень даже неожиданные. Чувствительность (способность метода определить наименьшие по длине трансмембранные участки) метода довольно низкая: 0,70, по сравнению с методом ТМНММ, для которого чувствительность составляет 0,93. Возможно, это связано с тем, что в методе измерения гидрофобности чувствительность сильно зависит от размера окна: действительно, чем оно длинее, тем больше вероятность "захватить" гидрофильные остатки вместе с потенциально гидрофобными сегментами, отчего возможно снижение среднего значения гидрофобности для данного окна, следовательно до порогового значения многие пики "недотягивают". Также количество пиков будет меньше. Это действительно наблюдалось на практике (при использовании размера окна равном 100):



Если же окно будет очень маленьким, то пики будут очень сильно и часто пересекать порог, и достоверные участки мембранных сегментов просто невозможно будет заметить (приведен рисунок с размером окна = 3):



В обоих случаях чувствительность значительно снижена. Поэтому для улучшения этого параметра необходимо подбирать размер окна как можно более оптимальнее.
При размере окна 19 специфичность очень высока: 0,98, в отличие от предсказания ТМНММ, для которого специфичность (способность определить именно трансмембранные сегменты, а не случайные гидрофобные участки) равна 0,90. Возможно, такое значение также определяется размером скользящего окна (см. картинки выше: специфичность для них почти ноль), но также немало важен способ выбора точек, по которым будут построены трансмембранные сегменты. Наверно, столь высокое значение очень неожиданно, но тогда его оправдывает хорошее приближение выбора точек статистическими методами (см. выше). Именно благодаря им определенные трансмембранные сегменты оказались точно локализуемыми в пределах границ топологии ОРМ.
Также точность метода (способность определить точные границы сегментов) оказалась довольно высокой: 0,95, в отличие от метода ТМНММ, в котором точность составила 0,85. На мой взгляд, эта величина сильно опредляется способом выбора точек, по которым затем строится трансмембранный сегмент. Тогда статистический подход предвосхищает все ожидания: учитывая то, что точек для потенциальных сегментов нашлось довольно много, точечный расчет доверительного интервала позволил выделить наиболее достоверные точки, по которым были построены мембранные сегменты. В результате они довольно точно совпали с топологией ОРМ и лишь на 3-2 остатка граница варьировала либо в сторону удлинения, либо в сторону уменьшения длины сегмента, или же сдвиг сегмента относительно соответствующего достоверного участка по топологии ОМР. Поэтому и сверхпредсказание оказалось также более низким 0,05, по сравнению с предсказанием ТМНММ (0,15).
Но в связи с сильной зависимостью качества предсказания от размера скользящего окна, недопредсказание оказалось больше 0,16, чем для метода ТМНММ: 0,05. Очевидно, это связано с тем, что не был детектирован один трансмембранный сегмент.



©Володя Рудько