Мембранные белки, транспортные белки

Задача - предсказать топологию мембранного белка ACC2B_DANRE и сравнить результаты предсказания с описанием 3D-структуры близкого гомолога (белка-прототипа) ACCN2_CHICK, ориентированной в мембране.

  1. Построение выравнивания заданного белка и белка-прототипа с разметкой трансмембранных сегментов

    1. Сравнение нумерации остатков белка-прототипа ACCN2_CHICK в UniProt и PDB

      Воспользуемся БД PDBsum, предоставляющей краткое схематическое изображение информации о структуре. Подадим на вход идентификатор PDB 2QTS белка-прототипа ACCN2_CHICK. Щелкнув по картинке, получим окно с выравниванием последовательности из UniProt (ID - ACCN2_CHICK, AC - Q1XA76) и последовательности из PDB (ID - 2QTS). Преобразуем выравнивание в формат FASTA и сохраним его в файле 2qts.fasta. Импортируем выравнивание в GeneDoc и сохраним его в файле algn1.msf.
      Нумерация в двух БД совпадает, но в БД PDB последовательность значительно короче (и на C-конце, и на N-конце) и начинается с 42-го остатка последовательности БД UniProt (то есть первый остаток последовательности БД PDB имеет номер 42).
    2. Построение полного глобального выравнивания заданного белка ACC2B_DANRE и белка-прототипа ACCN2_CHICK

      По идентификаторам UniProt получим последовательности заданного белка ACC2B_DANRE и белка-прототипа ACCN2_CHICK. Для этого воспользуемся программой seqret пакета EMBOSS. Сохраним последовательности в файлах acc2b_danre.fasta и accn2_chick.fasta соответственно.
      Теперь построим полное глобальное выравнивание белков с помощью программы needle (Gap_penalty: 10.0; Extend_penalty: 0.5). Выравнивание было сохранено в файле membr.needle. Характеристики выравнивания:
      # Gap_penalty: 10.0
      # Extend_penalty: 0.5
      #
      # Length: 531
      # Identity:     349/531 (65.7%)
      # Similarity:   411/531 (77.4%)
      # Gaps:          34/531 ( 6.4%)
      # Score: 1933.5
      
      Выравнивание было импортировано в GeneDoc и сохранено в файле mark1.msf.
    3. Создание по данным БД OPM разметки трансмембранных сегментов в белке-прототипе ACCN2_CHICK

      Найдем по PDB ID (2QTS) описание ТМ-сегментов белка-прототипа ACCN2_CHICK в БД OPM (Orientations of Proteins in Membranes database).

      Белок ACCN2_CHICK имеет код 1.1.42.01. Изучим подробнее код:
      1.1.42.01. Белок относится к типу трансмембранных белков (Transmembrane).
      1.1.42.01. Белок относится к классу альфа-спиральных трансмембранных белков (Alpha-helical transmembrane).
      1.1.42.01. Белок относится к суперсемейству эпителиальных натриевых каналов (Epithelial sodium channel (ENaC)).
      1.1.42.01. Белок относится к семейству кислотно-чувствительных ионных каналов (Acid-sensing ion channels).

      На основании описания добавим в созданное в предыдущем пункте выравнивание строчку с разметкой трансмембранных сегментов. Для этого загрузим на открытой странице OPM изображение в Jmol.
      Назовем эту строчку "OPM". Измененное выравнивание сохранено в файле mark.msf и mark.aln. В строчке "OPM" буквы "H" соответствуют позициям трансмембранных сегментов белка-прототипа ACCN2_CHICK, "+" - позициям цитоплазматических сегментов, "_" (в формате .msf отображается как ".") - позициям внеклеточных сегментов. Как видно из выравнивания, последовательность ACCN2_CHICK имеет всего 2 трансмембранных сегмента (альфа-спиральных). Большая часть последовательности расположена вне клетки.
    4. Предсказание топологии заданного белка ACC2B_DANRE с помощью программы TMHMM

      Предскажем топологию белка ACC2B_DANRE с помощью сервера TMHMM. На вход подадим ему файл с последовательностью белка в формате FASTA. Полученное предсказание добавим к выравниванию файла mark.msf в виде искусственной последовательности с разметкой трансмембранных спиралей под названием "TMHMM". Полученное выравнивание сохранено в форматах HTML и Clustal в файлах markres.htm и markres.aln соответственно. Обозначения ("+", "-" и "H") те же, что и в предыдущем пункте. Синим окрашены совпадающие или схожие остатки последовательностей ACC2B_DANRE и ACCN2_CHICK выравнивания; зеленым - совпадающие трансмембранные сегменты, найденные в последовательности AСCN2_CHICK по данным БД OPM и предсказанные в последовательности ACC2B_DANRE программой TMHMM; фиолетовым - совпадающие цитоплазматические сегменты; красным - совпадающие внеклеточные сегменты.
  2. Сравнение полученного предсказания с данными OPM

    Для сравнения полученного предсказания с данными OPM был создан скрипт, написанный на языке Perl. Этот скрипт читает и разбирает выходной файл программы предсказания (tmhmm.htm), текстовый файл с описанием всех мембранных сегментов в БД OPM (opm.txt) и файл с парным выравниванием заданного белка и белка-прототипа (последовательности которых взяты из UniProt) (membr.needle), производит необходимые вычисления и сохраняет результаты в текстовом файле (tm.txt). Скрипт сохранен в файле tm.pl.
    Из файла программы предсказания TMHMM скрипт достает длину изучаемого белка, его ID и координаты трансмембранных сегментов. Из OPM файла скрипт достает координаты трансмембранных сегментов белка-прототипа. Скрипт уточняет координаты трансмембранных сегментов белков, используя файл с выравниванием (чтобы гомологичные остатки имели одинаковые координаты). После этого скрипт считает длину пересечения трансмембранных сегментов белка-прототипа (из файла OPM) и изучаемого белка (из файла программы TMHMM). Это и есть TP (true positives). FP (false positives) считается как длина трансмембранных сегментов заданного белка из файла программы предсказания TMHMM минус TP. FN (false negatives) считается как длина трансмембранных сегментов белка-прототипа из файла OPM минус TP. TN (true negatives) считается как длина всей последовательности заданного белка минус длина трансмембранных сегментов заданного белка из файла программы TMHMM минус FN. Остальные характеристики считаются по формулам, приведенным в таблице.

    Результаты предсказания топологии мембранного белка ACC2B_DANRE

      Число а.к. остатков
    Всего а.к. остатков 501
    Остатки, предсказанные как локализованные в мембране (всего) 20
    Правильно предсказали (true positives, TP) 19
    Предсказали не то, что нужно (а.о. предсказаны как мембранные, а по данным ОРМ таковыми не являются, false positives, FP) 1
    Правильно не предсказали ( не предсказаны, и по данным ОРМ не находятся в мембране, true negatives, TN) 448
    Не предсказали то, что нужно (остатки по данным ОРМ находятся в мембране, false negatives, FN) 33
    Чувствительность (sensivity) = TP / (TP+FN) 0.37 (37%)
    Специфичность (specificity) =  TN / (TN+FP)  1.00 (100%)
    Точность(precision) = TP /(TP+FP) 0.95 (95%)
    Сверхпредсказание = FP/ (FP+TP) 0.05 (5%)
    Недопредсказание = FN / (TN+FN) 0.07 (7%)


    По данным таблицы предсказание получилось чрезвычайно специфичным (то есть было предсказано крайне мало трансмембранных остатков там, где не нужно, по отношению к общему количеству немембранных остатков) и точным (то есть среди всех предсказанных трансмембранных остатков было крайне мало предсказанных остатков, не являющимися трансмембранными). Сверхпредсказание и недопредсказание оказались очень маленькими, что тоже говорит в пользу предсказания. Но, к сожалению, чувствительность предсказания оставляет желать лучшего (то есть было предсказано мало трансмембранных остатков по сравнению с реальным количеством трансмембранных остатков).

    В выравнивании последовательность белка ACC2B_DANRE содержит лишь один трансмембранный сегмент, соответствующий по выравниванию трансмембранному сегменту белка-прототипа ACCN2_CHICK. Второго трансмембранного сегмента в последовательности ACC2B_DANRE, соответствующего второму трансмембранному сегменту последовательности ACCN2_CHICK, в выравнивании нет. Однако, если внимательнее посмотреть на предсказание программы TMHMM, то видно, что на графике вероятностей сегментов как раз в районе 435-го остатка самую большую вероятность имеет трансмембранный сегмент, а после него, в районе 460-го остатка - цитоплазматический сегмент. Однако в окончательный результат программа TMHMM эти координаты не включила, хотя и надо было. Таким образом, из 2 трансмембранных спиралей предсказана только одна. Ориентация белка в мембране предсказана верно, за исключением того, что в конце последовательности белок вновь пронизывает мембрану и опять оказывается в цитоплазме (из-за того, что программа ТМHMM не предсказала вторую трансмембранную спираль, она не смогла предсказать и второй цитоплазматический сегмент, хотя на графике он имеет самую большую вероятность в конце последовательности).

Назад