На главную страницу четвертого семестра.

Мембранные белки.

Задание № 1. Построение парного выравнивания исследуемого белка Q116S5 и заданного прототипа - цепи А комплекса цитохром b6f (P83791).


Для выполнения поставленной цели - построить предсказание топологии мембранного белка - сначала необходимо было сопоставить последовательность цепи А прототипного белка P83791 из банка UniProt с его же последовательностью (цепи А) из банка PDB - с известной структурой. Как показывает опыт, часто одинаковые последовательности из этих баз данных не совпадают по нумерации аминокислотных остатков и/или в последовательности pdb-файла могут отсутствовать некоторые участки последовательности, для которых не были определены координаты рентгеноструктурным методом из-за высокой конформационной подвижности. Поскольку нумерация остатков в структурных файлах часто непрерывна, то по причине отсутствия некоторых остатков, нумерация в pdb-файле не будет совпадать с нумерацией остатков в файле UniProt. Итак, последовательность прототипного белка - комплекса цитохром b6f из UniProt и 1VF5 из RCSB-банка были выравнены с помощью программы needle из строки Unix, которая строит глобальное выравнивание:

Глобальное выравнивание последовательностей прототипного белка из БД UniProt и RCSB.
CYB6_MASLA         1 MANVYDWFQERLEIQALADDVTSKYVPPHVNIFYCLGGITLTCFLIQFAT     50
                     ||||||||||||||||||||||||||||||||||||||||||||||||||
SEQUENCE           1 MANVYDWFQERLEIQALADDVTSKYVPPHVNIFYCLGGITLTCFLIQFAT     50

CYB6_MASLA        51 GFAMTFYYKPTVTEAYASVQYIMNEVSFGWLIRSIHRWSASMMVLMMILH    100
                     ||||||||||||||||||||||||||||||||||||||||||||||||||
SEQUENCE          51 GFAMTFYYKPTVTEAYASVQYIMNEVSFGWLIRSIHRWSASMMVLMMILH    100

CYB6_MASLA       101 VFRVYLTGGFKKPRELTWISGVILAVITVSFGVTGYSLPWDQVGYWAVKI    150
                     ||||||||||||||||||||||||||||||||||||||||||||||||||
SEQUENCE         101 VFRVYLTGGFKKPRELTWISGVILAVITVSFGVTGYSLPWDQVGYWAVKI    150

CYB6_MASLA       151 VSGVPEAIPVVGVLISDLLRGGSSVGQATLTRYYSAHTFVLPWLIAVFML    200
                     ||||||||||||||||||||||||||||||||||||||||||||||||||
SEQUENCE         151 VSGVPEAIPVVGVLISDLLRGGSSVGQATLTRYYSAHTFVLPWLIAVFML    200

CYB6_MASLA       201 LHFLMIRKQGISGPL    215
                     |||||||||||||||
SEQUENCE         201 LHFLMIRKQGISGPL    215



Как видно, совпадение 100%-ное, поэтому нумерация последовательности из БД UniProt полностью совпадает с нумерацией из PDB-банка. Но исследовав вторичную структуру, представленную на соответствующей странице белка 1VF5, то выяснилось, что в соответствующем файле .pdb отсутствуют координаты первых двенадцати и последнего 215-ого аминокислотных остатков. Но так как на нумерацию остатков это никак не повлияло (последовательность структуры начинается с 13-ого и кончается 214-ым остатками соответственно), то данный факт решено было не принимать во внимание.
Затем было построено попарное выравнивание заданного белка Q116S5 и последовательности цепи А 1VF5, являющейся составной частью целого комплекса цитохром b6f. Так как в самом комплексе субъединица, образованная цепью А, является однодоменным белком и фактически полностью участвует в образовании трансмембранных сегментов (имеется ввиду, что нет сложных внемембранных образований, которые могли бы выполнять специальные функции со стороны стромы или тиллакоидного пространства), то для выравнивания интересующей последовательности и этого прототипа использовалась программа needle в строке Unix, которая выравнивает последовательности по всей длине. Установки программы использовались по умолчанию (Gap_penalty: 10.0, Extend_penalty: 0.5) в результате получено следующее выравнивание:

Глобальное выравнивание последовательностей прототипного белка pdb-файла и интересующей последовательности Q116S5.
#=======================================
#
# Aligned_sequences: 2
# 1: CYB6_MASLA
# 2: Q116S5_TRIEI
# Matrix: EBLOSUM62
# Gap_penalty: 10.0
# Extend_penalty: 0.5
#
# Length: 222
# Identity (ID):     184/222 (82.9%)
# Similarity:        199/222 (89.6%)
# Gaps:                7/222 ( 3.2%)
#    Score: 1001.0
# 
#
#=======================================

CYB6_MASLA         1 -------MANVYDWFQERLEIQALADDVTSKYVPPHVNIFYCLGGITLTC     43
                            .:..|.||.||||:||||||::|||||||||||||||||||.|
Q116S5_TRIEI       1 MFSKQVTDSPAYKWFDERLEVQALADDISSKYVPPHVNIFYCLGGITLVC     50

CYB6_MASLA        44 FLIQFATGFAMTFYYKPTVTEAYASVQYIMNEVSFGWLIRSIHRWSASMM     93
                     ||||||||||||||||||||||.|||||||.||:||||||||||||||||
Q116S5_TRIEI      51 FLIQFATGFAMTFYYKPTVTEALASVQYIMTEVNFGWLIRSIHRWSASMM    100

CYB6_MASLA        94 VLMMILHVFRVYLTGGFKKPRELTWISGVILAVITVSFGVTGYSLPWDQV    143
                     |||||||.|||||||||||||||||::||::||||||||||||||||||:
Q116S5_TRIEI     101 VLMMILHTFRVYLTGGFKKPRELTWVTGVVMAVITVSFGVTGYSLPWDQI    150

CYB6_MASLA       144 GYWAVKIVSGVPEAIPVVGVLISDLLRGGSSVGQATLTRYYSAHTFVLPW    193
                     ||||||||||||:|||.||..|.:|:||.:|||||||||:||.|||||||
Q116S5_TRIEI     151 GYWAVKIVSGVPDAIPFVGPFIVELMRGSTSVGQATLTRFYSLHTFVLPW    200

CYB6_MASLA       194 LIAVFMLLHFLMIRKQGISGPL    215
                     .|||||||||||||||||||||
Q116S5_TRIEI     201 FIAVFMLLHFLMIRKQGISGPL    222


Итак, выравнивание очень хорошее (ID = 82,9%; Sim = 89,6%), локализацию вставок/делеций можно считать достоверной - всего одна протяженная вставка/делеция в начале выравнивания. Поэтому, все выравнивание можно считать достоверным и истинным. Полученное выравнивание экспортировалось в msf-формат использованием следующей команды строки Unix:
needle prototip1.fasta interest.fasta -aform msf
И затем сохранено под названием marking.msf

Задание № 2. Разметка мембранных сегментов на выравнивании.


По идентификатору PDB комплекса цитохром b6f было найдено описание его ориентации в мембране. Согласно классификации БД OPM, комплекс относится к типу трансмембранных белков, классу альфа-спиральных трансмембранных белков, суперсемейству трансмембранных цитохром b подобных белков, семейству цитохром bc1 и b6 белковых комплексов. Также указана локализация цитохрома в клетке: тиллакоидная мембрана. Но тогда необходимо было установить, какая сторона мембраны считается внешней, а какая - внутренней. В принципе, это легко установить по рисунку на вкладыше справа на странице белка: в поле Topology in Thylakoid membrane видно, что красной линией (указывающей на "внешнюю" сторону мембрану) отмечена поверхность мембраны, обращенная в тиллакоидное простанство, а синий линией, указывающей на "внутреннюю" сторону мембраны, отмечена стромальная поверхность. Исходя из этих принятых обозначений, в выравнивание marking.msf была добавлена ещё одна строчка OPM в которую вносилась разметка трансмембранных сегментов (TM). Данные для этой строки были подчерпаны из поля 16 transmembrane subunits страницы записей белка 1vf5 из БД ОРМ, но только из строки, относящейся к описанию цепи А. Всего таких сегментов четыре, все они приблизительно длиной в 20 аминокислот с углом наклона к нормали приблизительно ~21o. Итак, выравнивание выглядит так:



На картинке синим выделены выравненных последовательностей, которые точно относятся к петлям, обращенным к строме хлоропласта, красным - участки петель, обращенных в тиллакоидное пространство, и наконец фиолетовым - трансмембранные сегменты. Не выравненный участок в самом начале я не стал выделять, так как согласно заданию, нужно изобразить разбивку выравнивания на трансмембранные сегменты по последовательности 1vf5 chain A. Так как в начале выравнивания у этой последовательности находится гэп, то отнесение этого участка выравнивания (то есть фактически участка последовательности Q116S5) к стромальной петле является уже предположением. В принципе, так как трансмембранные сегменты длинные (20 аминокислот), то такой короткий невыравненный сегмент все же можно отнести к стромальной петле без всяких сомнений. Видно, что чередование разных типов петель, начиная с N-конца, нечетно: на три стормальные петли приходится только две тиллакоидные. Также, ограничивают выравненные последовательности сегменты стромальных петель - это указывает на то, что оба конца цепи А смотрят в строму:



Итак, учитывая большое сходство исследуемого белка и субъединицы А прототипа, а также разметку ТМ-сегментов прототипного белка 1vf5 цепи А, то те участки исследуемого белка Q116S5, которые по выравниванию соответствуют таким сегментам (или петлям), также достоверно можно считать трансмембранными (петлями). Вообщем, с помощью множественного выравнивания припишем разметку вторичной структуры цепи А цитохром b6f исследуемому белку Q116S5, и также учтем, что невыравненный участок (где против последовательности Q116S5 стоят гэпы в последовательности 1vf5) относится к стомальной петле:



Интересно отметить, что количество тиллакоидных петель, меньше количества стромальных, но зато по абсолютной длине они в сумме намного больше, чем длины стромальных петель. Этот факт был рассмотрен на 3D-структуре, предоставляемой на странице БД ОРМ, генерируемой программой Java. Так как при запуске генерируется полное изображение комплекса цитохрома, то для его обработки и визуализации только цепи А вызывалась командная строка Java, где использовались стандартные команды RasMol. Итак, получено следующее изображение 3D модели субъединицы А (зеленым выделены молекулы гема, остальная окраска - как впредыдущих изображениях):



Как видно на картинке, длинные тиллакоидные петли (красный цвет) направлены так, что по своей длине закрывают центральную пору, образуемую четырьмя трансмембранными спиралями и в которой закреплены в определенной конформации три молекулы гема. А стромальные петли направлены, напротив, таким образом, что открывают доступ к этим молекулам гема. Видимо, такое 3D расположение элементов вторичной структуры необходимо для нормального функционирования всей молекулы цитохрома: известно, что цитохром b6f играет важную роль в переносе возбужденного электрона от фотосистемы II к центру фотосистемы I для заполнения "электронной дырки". Тогда отработанные молекулы гема могут обмениваться с новыми молекулами, выходя в строму хлоропласта, освобождая для них центры связывания. А для предотвращения потери молекул гема, как раз необходимы длинные тиллакоидные петли, которые прикрывают собой пору. Также этому способствует сложная структуризация этих петель: они собраны в длинные альфа-спирали, контактирующих между собой подобно шпилечным элементам.

Задание № 3. Предсказание топологии заданного белка с помощью программы (TMHMM).


На странице сервера TMHMM было сделано предсказание топологии последовательности белка Q116S5. Для этого в поле SUBMISSION вносилась последовательность белка в Fasta-формате. В результате получено следующее изображение графика зависимости вероятности нахождения данного остатка в определенном элементе вторичной структуры: трансмембранной спирали, внутренней или внешней петле:




Также, для удобства определения границ таких элементов, программа выдала данные по размерам и местонахождении петель и трансмембранных сегментов:

Предсказание топологии белка Q116S5 программой ТМНММ
Элемент вторичной структуры начало конец
стромальная (внутренняя) петля 1 38
трансмембранная спираль 39 61
тиллакоидная (внешняя) петля 62 90
трансмембранная спираль 91 113
стромальная (внутренняя) петля 114 124
трансмембранная спираль 125 147
тиллакоидная (внешняя) петля 148 190
трансмембранная спираль 191 213
стромальная (внутренняя) петля 214 215


Все полученные данное также можно видеть на странце результатов. Затем была добавлена к последовательностям в файле marking.msf еще одну искусственная последовательность, отражающая результаты данного предсказания. Последовательность названа "TMHMM". Выравнивание можно видеть здесь, или ниже на картинке:



Также выравнивание было сохранено в формате ClustalW.

Задание № 4. Оценка качества предсказания.


Так как было принято считать топологию ОРМ для белка 1vf5 правильно описывающей топологию интересующего белка Q116S5 - последовательности выравниваются по всей длине с высоким ID > 80%, хорошее распределение гэпов по всей длине выравнивания (нет гэпов длиной 1 а.о., разбросанных по всему выравниванию), то сравнивая предсказание программы ТМНММ с топологией ОРМ, за истину бралась строка ОРМ, расчеты велись по строке ТМНММ. В результате составлена следующая таблица:

  Число аминокислотных остатков (или доля а.о.)
Всего а.к. остатков 222
Остатки, предсказанные как локализованные в мембране (всего) 92
Правильно предсказано (true positives, TP) 78
Предсказано не то, что нужно (а.о. предсказаны как мембранные, а по данным ОРМ таковыми не являются, false positives, FP) 14
Правильно не предсказано ( не предсказаны, и по данным ОРМ не находятся в мембране, true negatives, TN) 124
Не предсказано то, что нужно (остатки по данным ОРМ находятся в мембране, false negatives, FN) 6
Чувствительность (sensivity) = TP / (TP+FN) 0,93
Специфичность (specificity) = TN / (TN+FP) 0,90
Точность (precision) = TP / (TP+FP) 0,85
Сверхпредсказание = FP/ (FP+TP) 0,15
Недопредсказание = FN / (TN+FN) 0,05


Как видно из данных таблицы, программа ТМНММ делает предсказание трансмембранных сегментов очень хорошо, с высокими показателями чувствительности и специфичности: 0,93 и 0,90 соответственно. Видимо, такие результаты определяются особенностями алгоритма предсказания. По данным статьи Krogh et al. , метод ТМНММ основан на использовании скрытой модели Маркова (НММ) для разных участков мембранного белка: шляпки спирали (helix cap); середины спирали (middle of helix); участков, близких к мембране (regions close to the membrane); петельных участков (loop); глобулярных доменов (globular domain). В виде схемы модель алгоритма выглядит так:



Каждый квадрат на схеме соответствует субмодели участка мембранного белка, указанного в названии квадрата. Эти субмодели содержат несколько типов НММ, с помощью которых ведется поиск этих участков. В алгоритме принято, что петли длиной до 20 а.о. моделируются профайлами для модели петли, а моделирование более длинных петель использует профайлы глобулярного домена. Кэп (шляпка трансмембранного сегмента) моделируется для первых и последних пяти остатков трансмембранного сегмента.
Видимо, используя специфичные профайлы НММ для разных участков трансмембранных белков, можно добиться повышения чувствительности (как в моем примере получилось значение 0,93 - отличный результат!!) и безусловно специфичности (0,9 - так как определенный НММ реализуется для специфичного сегмента последовательности). Точность алгоритма также очень хорошая = 0,85, если принять во внимание, что определение границ любого сегмента дело довольно непростое. А недопредсказание также оказывается очень низким - всего 5%!!, так как довольно хорошо определяется принадлежность каждого участка последовательности к определенному сегменту трансмембранного белка.



©Володя Рудько