Идентификаторы заданного белка и белка-прототипа - взяты отсюда.
Нумерация в PDB начинается с 23-го нуклеотида.
Белок-прототип - аквапорин-4 (AQP-4, WCH4, Mercurial-insensitive water channel) из организма Rattus norvegicus (крыса) - мембранный белок, формирующий водный канал; осморецептор, регулирующий водный баланс.
Полученные последовательности необходимо сравнить. Для этого создается выравнивание; вид команды:
needle P47863.fasta 2D57.fasta -gapopen 10 -gapextend 0.5 stdout >> prototip.msfВот полученное выравнивание:
######################################## # Program: needle # Rundate: Wed Apr 04 2007 10:26:35 # Commandline: needle # [-asequence] 2D57.fasta # [-bsequence] P47863.fasta # -outfile prototip.msf # Align_format: srspair # Report_file: prototip.msf ######################################## #======================================= # # Aligned_sequences: 2 # 1: 2D57-SEQ # 2: AQP4_RAT # Matrix: EBLOSUM62 # Gap_penalty: 10.0 # Extend_penalty: 0.5 # # Length: 323 # Identity: 301/323 (93.2%) # Similarity: 301/323 (93.2%) # Gaps: 22/323 ( 6.8%) # Score: 1551.0 # # #======================================= 2D57-SEQ 1 ----------------------MVAFKGVWTQAFWKAVTAEFLAMLIFVL 28 |||||||||||||||||||||||||||| AQP4_RAT 1 MSDGAAARRWGKCGPPCSRESIMVAFKGVWTQAFWKAVTAEFLAMLIFVL 50 2D57-SEQ 29 LSVGSTINWGGSENPLPVDMVLISLCFGLSIATMVQCFGHISGGHINPAV 78 |||||||||||||||||||||||||||||||||||||||||||||||||| AQP4_RAT 51 LSVGSTINWGGSENPLPVDMVLISLCFGLSIATMVQCFGHISGGHINPAV 100 2D57-SEQ 79 TVAMVCTRKISIAKSVFYITAQCLGAIIGAGILYLVTPPSVVGGLGVTTV 128 |||||||||||||||||||||||||||||||||||||||||||||||||| AQP4_RAT 101 TVAMVCTRKISIAKSVFYITAQCLGAIIGAGILYLVTPPSVVGGLGVTTV 150 2D57-SEQ 129 HGNLTAGHGLLVELIITFQLVFTIFASCDSKRTDVTGSVALAIGFSVAIG 178 |||||||||||||||||||||||||||||||||||||||||||||||||| AQP4_RAT 151 HGNLTAGHGLLVELIITFQLVFTIFASCDSKRTDVTGSVALAIGFSVAIG 200 2D57-SEQ 179 HLFAINYTGASMNPARSFGPAVIMGNWENHWIYWVGPIIGAVLAGALYEY 228 |||||||||||||||||||||||||||||||||||||||||||||||||| AQP4_RAT 201 HLFAINYTGASMNPARSFGPAVIMGNWENHWIYWVGPIIGAVLAGALYEY 250 2D57-SEQ 229 VFCPDVELKRRLKEAFSKAAQQTKGSYMEVEDNRSQVETEDLILKPGVVH 278 |||||||||||||||||||||||||||||||||||||||||||||||||| AQP4_RAT 251 VFCPDVELKRRLKEAFSKAAQQTKGSYMEVEDNRSQVETEDLILKPGVVH 300 2D57-SEQ 279 VIDIDRGDEKKGKDSSGEVLSSV 301 ||||||||||||||||||||||| AQP4_RAT 301 VIDIDRGDEKKGKDSSGEVLSSV 323 |
Последовательность белка для исследования - Q8UVB8 ищется по идентификатору UniProt в SRS; запрос [uniprot-AccNumber:Q8UVB8] . Это аквапорин из организма Coturnix coturnix (перепел обыкновенный).
Далее строится парное выравнивание этой последовательности и последовательности белка-прототипа из PDB (идентификатор 2D57) c помощью программы ClustalW [предварительно создается файл, содержащий обе последовательности]; вид команды:
emma vmeste.fasta
Полученное выравнивание экспортировано в GeneDoc:
Итак, судя по выравниванию, сходство последовательностей высокое; функции рассматриваемые белки выполняют одинаковые. А это значит, что рассматриваемые белки - ортологи.
Выравнивание, экспортированное в GeneDoc, сохранено в файле под названием marking.msf (внимание!: здесь и далее ссылка приводится на файл в формате HTML, это обеспечивает "сохранность" раскраски и удобство просмотра результатов).
Учитывая, что мембрана имеет конечную толщину (в среднем около 30 Å ), трансмембранной спирали соответствует примерно 20 остатков. Из полученных 8ми, 4 спирали имеют длину приблизительно равную 20; одна спираль имеет длину в 25 а.о.; остальные 3 - "короткие" (10, 10 и 15 а.о.).
В выдаче ОРМ есть визуализация белка: похоже, что "короткие" спирали пронизывают только по одному из липидных слоев мембраны.
В полученном ранее файле marking.msf ниже последовательности прототипа добавлена последовательность с названием "OPM" и разметкой ТМ сегментов (как это делалось - см. подсказки: в соответствующих последовательностях отмечаются позиции мембранных сегментов буквой "Н", позиции цитоплазматических петель знаком "+", остальные — знаком "-" (серым выделены остатки, отсутствующие в Q8UVB8)).
Число предсказанных трансмембранных спиралей (ТМС) составляет 6. Указаны границы ТМС, внешних и внутренних (по отношению к мембране) участков белка; кроме того, приводится диаграмма, отражающая апостериорную вероятность "встречаемости" указанных элементов.
Страничка с результатом предсказания прикреплена к протоколу.
К последовательностям в файле marking.msf добавлена еще одна искусственную последовательность с разметкой ТМ сегментов, отражающая результаты данного предсказания - последовательность "TMHMM" (опять же, отмечаются позиции мембранных сегментов буквой "Н", позиции цитоплазматических петель знаком "+", остальные — знаком "-").
Полученное предсказание TMHMM сравнивается с данными ОРМ. Для этого рассматривается выравнивание, результаты сравнения заносятся в таблицу - см. ниже. Для оценки качества предсказания (подсчета ТР и пр.) написан программный код на языке JAVA (см. этот текстовый файл - реализация в JBuilder).
Число а.к. остатков | |
Всего а.к. остатков | 335 |
Остатки, предсказанные как локализованные в мембране (всего) | 138 |
Правильно предсказали (true positives, TP) | 119 |
Предсказали не то, что нужно (а.о. предсказаны как мембранные, а по данным ОРМ таковыми не являются, false positives, FP) | 19 |
Правильно не предсказали ( не предсказаны, и по данным ОРМ не находятся в мембране, true negatives, TN) | 170 |
Не предсказали то, что нужно (остатки по данным ОРМ находятся в мембране, false negatives, FN) | 27 |
Доля | |
Чувствительность (sensitivity) = TP / (TP+FN) | 0.8150 |
Специфичность (specificity) = TN / (TN+FP) | 0.8995 |
Точность (precision) = TP / (TP+FP) | 0.8623 |
Сверхпредсказание = FP/ (FP+TP) | 0.1377 |
Недопредсказание = FN / (TN+FN) | 0.1371 |
Что получается: после просмотра выравнивания оказалось, что предсказания TMHMM достаточно точные: предсказаны 6 трансмембранных спиралей, пронизывающих билипидный слой мембраны. Непредсказанными оказались только 2 "коротких" спирали (по 10 а.о. каждая) - тут очевидна связь с особенностями алгоритма ТМНММ (с тем, что скрытые марковские модели используются для предсказания; и "стандартной" трансмембранной спиралью считается спираль длиной около 20 а.о.). Правильно предсказано и положение цитоплазматических петель / ориентация в цитоплазматической мембране (за исключением петель между 3 и 5 предсказанными спиралями - сказалась непредсказанность коротких альфа-спиралей ).
Как оказалось, у TMHMM весьма высокие специфичность, чувствительность и точность ( >0.80 или >80% ). В то же время ,низка доля ( <0.15 ) сверх- и недопредсказаний. Все это делает программу TMHMM подходящей для достаточно разумного предсказания топологии мембранных белков (во всяком случае, для предсказания белков с топологией "петля - трансмембранная спираль - петля").
Напоследок привожу файл marking в различных форматах:
Согласно этому правилу петли, обращенные в сторону цитоплазмы, содержат больше остатков аргинина (R) и лизина (К).
Чтобы проверить это, в полученном ранее файле marking.msf на последовательностях ОРМ и ТMHMM розовым цветом выделяется позиции, соответствующие аргинину (R); зеленым - лизину (К) (см. этот файл).
Затем считается общее число таких остатков и число остатков, "попавших" в цитоплазматические петли (проще говоря, считаются окрашенные "+" на схемах). Результаты подсчета ["всего" - использую средства GeneDoc: пункт меню Reports / Base Composition Report] - см. таблицу:
Cтруктурa белка-прототипа (по данным ОРМ) | Tопология, предсказанная ТMHMM | |
Всего аргинина в последовательности (число а.о.) | 7 | 13 |
Число аргинина во "внутренних" петлях (т.е. петлях, обращенных в сторону цитоплазмы) |
4 | 12 |
Всего лизина в последовательности (число а.о.) | 13 | 18 |
Число лизина во "внутренних" петлях (т.е. петлях, обращенных в сторону цитоплазмы) |
9 | 15 |
Всего (аргинин, лизин) / во внутренних петлях | 0.65 | 0.87 |
Что получается: формально правило фон Хейне выполнено в обоих случаях (аргинин и лизин располагаются преимущественно в цитоплазматических петлях). Однако в случае топологии, предсказанной ТMHMM, выполнение правила более очевидно ( 87 % всех аргининов и лизинов находятся в цитоплазматических петлях), чем для белка-прототипа. Это, опять же, может быть связано с использованием в алгоритме ТMHMM скрытых марковских моделей, учитывающих правило Фон-Хейне.
Необходимо построить профиль гидрофобности* для аминокислотной последовательности изучаемого белка Q8UVB8. Данные для построения профиля получены с помощью программы pepwindow пакета EMBOSS (при предсказании трансмембранных сегментов оптимальным считают размер окна - 19 а.о. ; команда с параметром "-graph data"); вид команды:
pepwindow Q8UVB8.fasta -length 19 -graph data
* - Что такое профиль гидрофобности?
В работе Kyte, Doolittle, 1982, был предложен метод предсказания особенностей структуры белка, позволяющий найти в последовательности фрагменты, соответствующие трансмембранным спиралям или поверхности белка.
Суть метода в следующем. Каждому аминокислотному остатку приписывают некое число, показатель гидрофобности его боковой группы, см. шкалы
гидрофобности. Затем выбирают размер скользящего окна. По умолчанию, его размер обычно - 9 а.о. Программа просматривает всю а.к.последовательность и для каждого окна вычисляет среднее значение гидрофобности...
Полученные данные (выдача программы pepwindow - файл с расширением ".dat") экспортируются в Excel. По этим данным строится профиль гидрофобности с помощью Excel и строится график: по оси абцисс - позиция в последовательности, по оси ординат - средняя гидрофобность для окна с центром в данной позиции (см. файл). По этому графику определяются границы трансмембранных сегментов:
Рассматриваются пики со средним значением гидропатичности более 1.7. Каждый такой пик соответствует центру сегмента а.к. последовательности с длиной, равной размеру выбранного окна (если соседние сегменты перекрываются, то они могут быть описаны как один трансмембранный сегмент).
Для создания разметки, в файл marking.msf добавлена еще одна искусственная последовательность (с названием Profil и такой разметкой: отмечаются позиции мембранных сегментов буквой "Н", позиции цитоплазматических петель знаком "+", остальные — знаком "-", аминокислоты лизин и аргинин - зеленым и розовым соответственно; желтым цветом отмечены аминокислотные остатки, соответствующие пикам).
Для предсказания ориентации белка в мембране использовано правило фон Хейне.
Что получилось: во первых, опять не предсказанными оказались "короткие" спирали (т.е. по 10 аминокислотных остатков) - это можно связать с выбранным размером окна в 19 а.о. Но, что печально, непредсказанной оказалась восьмая спираль с координатами 231-252 (последнее значение, превосходящее на профиле гидрофобности 1,7, составляет 210 - даже возможная спираль (200-200...) никак "не пересекается" с последней по предсказаниям ОРМ спиралью).
Как определялись границы остальных пяти определенных спиралей: как видно из графика, "однозначным" можно считать определение только четвертой спирали (тут единственный пик). В остальных случаях наблюдается частичное перекрывание соседних сегментов (соответственно, на графике - несколько очень близких пиков). При определении границ спиралей учитывалось, что их длина не должна значительно превышать 20 а.о.
В связи с такой "недоопределенностью" трансмембранных участков, предсказание ориентации (по фон Хейне) белка в мембране затруднено (из-за отсутствия целых 3х спиралей!) - в разметке GeneDoc это отмечено *. Таким образом, с предсказаниями ОРМ совпало только 3 петли (2 цитоплазматические и одна внешняя; с N-конца).
Качество предсказания оценивается по схеме п.4 "Обязательное задание" (см. программный код тут) и представляется в виде таблицы:
Число а.к. остатков | |
Всего а.к. остатков | 335 |
Остатки, предсказанные как локализованные в мембране (всего) | 110 |
Правильно предсказали (true positives, TP) | 98 |
Предсказали не то, что нужно (а.о. предсказаны как мембранные, а по данным ОРМ таковыми не являются, false positives, FP) | 12 |
Правильно не предсказали ( не предсказаны, и по данным ОРМ не находятся в мембране, true negatives, TN) | 176 |
Не предсказали то, что нужно (остатки по данным ОРМ находятся в мембране, false negatives, FN) | 49 |
Доля | |
Чувствительность (sensitivity) = TP / (TP+FN) | 0.6667 |
Специфичность (specificity) = TN / (TN+FP) | 0.9362 |
Точность (precision) = TP / (TP+FP) | 0.8909 |
Сверхпредсказание = FP/ (FP+TP) | 0.1091 |
Недопредсказание = FN / (TN+FN) | 0.2178 |
Как оказалось, для такого метода предсказания топологии мембранных белков, чувствительность ниже, чем у ТMHMM; а специфичность и точность - выше. Получается меньше сверхпредсказаний, но практически в два раза больше недопредсказаний (ну да, 2 "короткие" спирали и одна спираль в 22 а.о. оказались непредсказанными).
Это интересно, ведь ТMHMM служит специально для определения трансмембранных участков, а в исследуемом методе, определяются просто гидрофобные участки. Кроме того понятно, что точность предсказания будет зависеть и от размера окна (и не только точность - высокий процент недопредсказания в том числе).
И такой еще факт: при определении границ предсказанных спиралей возникла необходимость внимательно следить за выбором "центра" отсчета, перекрыванием сегментов и т.д. - предсказание топологии заданного мембранного белка на основе его профиля гидрофобности требует значительной сконцентрированности "человеческого фактора" :-)
Выравнивание в 3х вариантах: