Мембранные белки
На главную страницу четвертого семестра
Задача предсказать топологию мембранного белка и сравнить предсказание
с ориентированной в мембране 3D-структурой белка-прототипа.
Идентификаторы:
белок-прототип AC UniProt P02722
PDB ID 1OKC
белок для исследования Q8AYM3_CHICK: AC UniProt Q8AYM3
Построение парного выравнивания исследуемого белка и заданного прототипа
Т.к. последовательности и нумерация остатков в БД PDB и БД UniProt могут
различаться, поэтому необходимо было получить и сравнить обе последовательности
белка-прототипа.
В БД UniProt была получена последовательность белка-прототипа (запрос:
[uniprot-AccNumber:P02722*]).
На главной страничке сайта PDB в поле
запроса был введен ID белка-прототипа. На появившейся страниче, с помощью опции
Download Files > FASTA Sequence, была сохранена последовательность белка-прототипа.
С помощью программы needle было сделано выравнивание данных последовательностей:
needle prot1.fasta prot2.fasta aln.needle -auto
ВЫРАВНИВАНИЕ:
########################################
# Program: needle
# Rundate: Tue Apr 10 2007 13:07:04
# Commandline: needle
# [-asequence] prot1.fasta
# [-bsequence] prot2.fasta
# [-outfile] aln.needle
# -auto
# Align_format: srspair
# Report_file: aln.needle
########################################
#=======================================
#
# Aligned_sequences: 2
# 1: ADT1_BOVIN
# 2: SEQUENCE
# Matrix: EBLOSUM62
# Gap_penalty: 10.0
# Extend_penalty: 0.5
#
# Length: 298
# Identity: 297/298 (99.7%)
# Similarity: 297/298 (99.7%)
# Gaps: 1/298 ( 0.3%)
# Score: 1542.0
#
#
#=======================================
ADT1_BOVIN 1 MSDQALSFLKDFLAGGVAAAISKTAVAPIERVKLLLQVQHASKQISAEKQ 50
|||||||||||||||||||||||||||||||||||||||||||||||||
SEQUENCE 1 -SDQALSFLKDFLAGGVAAAISKTAVAPIERVKLLLQVQHASKQISAEKQ 49
ADT1_BOVIN 51 YKGIIDCVVRIPKEQGFLSFWRGNLANVIRYFPTQALNFAFKDKYKQIFL 100
||||||||||||||||||||||||||||||||||||||||||||||||||
SEQUENCE 50 YKGIIDCVVRIPKEQGFLSFWRGNLANVIRYFPTQALNFAFKDKYKQIFL 99
ADT1_BOVIN 101 GGVDRHKQFWRYFAGNLASGGAAGATSLCFVYPLDFARTRLAADVGKGAA 150
||||||||||||||||||||||||||||||||||||||||||||||||||
SEQUENCE 100 GGVDRHKQFWRYFAGNLASGGAAGATSLCFVYPLDFARTRLAADVGKGAA 149
ADT1_BOVIN 151 QREFTGLGNCITKIFKSDGLRGLYQGFNVSVQGIIIYRAAYFGVYDTAKG 200
||||||||||||||||||||||||||||||||||||||||||||||||||
SEQUENCE 150 QREFTGLGNCITKIFKSDGLRGLYQGFNVSVQGIIIYRAAYFGVYDTAKG 199
ADT1_BOVIN 201 MLPDPKNVHIIVSWMIAQTVTAVAGLVSYPFDTVRRRMMMQSGRKGADIM 250
||||||||||||||||||||||||||||||||||||||||||||||||||
SEQUENCE 200 MLPDPKNVHIIVSWMIAQTVTAVAGLVSYPFDTVRRRMMMQSGRKGADIM 249
ADT1_BOVIN 251 YTGTVDCWRKIAKDEGPKAFFKGAWSNVLRGMGGAFVLVLYDEIKKFV 298
||||||||||||||||||||||||||||||||||||||||||||||||
SEQUENCE 250 YTGTVDCWRKIAKDEGPKAFFKGAWSNVLRGMGGAFVLVLYDEIKKFV 297
#---------------------------------------
#---------------------------------------
|
|
Вывод:
Последовательноть белка-прототипа из БД UniProt и последовательность того же белка, но
из БД PDB практически идентичны (Identity 99.7%), отличаются лишь первым элементом. Нумерация
отличается на единицу и идет со второго атома.
Далее идентификатору UniProt была получена последовательность заданного белка (Q8AYM3_CHICK).
Запрос:[uniprot-AccNumber:Q8AYM3*]. С помощью программы needle было
построено выравнивание последовательностей заданного белка (Q8AYM3_CHICK) и
белка-прототипа (последовательность из БД PDB).
needle serch.fasta prot2.fasta aln1.needle -aformat3 msf
ВЫРАВНИВАНИЕ:
########################################
# Program: needle
# Rundate: Tue Apr 10 2007 13:21:47
# Commandline: needle
# [-asequence] serch.fasta
# [-bsequence] prot2.fasta
# [-outfile] aln2.needle
# -auto
# Align_format: srspair
# Report_file: aln2.needle
########################################
#=======================================
#
# Aligned_sequences: 2
# 1: Q8AYM3_CHICK|
# 2: SEQUENCE
# Matrix: EBLOSUM62
# Gap_penalty: 10.0
# Extend_penalty: 0.5
#
# Length: 298
# Identity: 267/298 (89.6%)
# Similarity: 285/298 (95.6%)
# Gaps: 1/298 ( 0.3%)
# Score: 1425.0
#
#
#=======================================
Q8AYM3_CHICK| 1 MADQAISFLKDFLARGVAAAISKTAVAPIERVKLLLQVQHASKQIAADKQ 50
:|||:||||||||.||||||||||||||||||||||||||||||:|:||
SEQUENCE 1 -SDQALSFLKDFLAGGVAAAISKTAVAPIERVKLLLQVQHASKQISAEKQ 49
Q8AYM3_CHICK| 51 YKGIIDCVVRIPKEQGVLSFWRGNLANVIRYFPTQALNFAFKDKYKQVFL 100
||||||||||||||||.||||||||||||||||||||||||||||||:||
SEQUENCE 50 YKGIIDCVVRIPKEQGFLSFWRGNLANVIRYFPTQALNFAFKDKYKQIFL 99
Q8AYM3_CHICK| 101 GGVDKHTQFWRYFAGNLASGGAAGATSLCFVYPLDFARTRLAADVGKAGA 150
||||:|.||||||||||||||||||||||||||||||||||||||||..|
SEQUENCE 100 GGVDRHKQFWRYFAGNLASGGAAGATSLCFVYPLDFARTRLAADVGKGAA 149
Q8AYM3_CHICK| 151 DREFSGLGDCLVKITKSDGLRGLYQGFNVSVQGIIIYRAAYFGIYDTAKG 200
.|||:|||:|:.||.||||||||||||||||||||||||||||:||||||
SEQUENCE 150 QREFTGLGNCITKIFKSDGLRGLYQGFNVSVQGIIIYRAAYFGVYDTAKG 199
Q8AYM3_CHICK| 201 MLPDPRNTHIVISWMIAQTVTAVAGVVSYPFDTVRRRMMMQSGRKGADIM 250
|||||:|.||::|||||||||||||:||||||||||||||||||||||||
SEQUENCE 200 MLPDPKNVHIIVSWMIAQTVTAVAGLVSYPFDTVRRRMMMQSGRKGADIM 249
Q8AYM3_CHICK| 251 YSGTIDCWRKIARDEGGKAFFKGAWSNVLRGMGGAFVLVLYDEFKKVI 298
|:||:|||||||:|||.||||||||||||||||||||||||||.||.:
SEQUENCE 250 YTGTVDCWRKIAKDEGPKAFFKGAWSNVLRGMGGAFVLVLYDEIKKFV 297
#---------------------------------------
#---------------------------------------
|
|
Далее это выравнивание было открыто программой GeneDoc и сохранено в файле
marking.msf
Идентичность - 89.6%.
Разметка мембранных сегментов на выравнивании
По идентификатору PDB белка-прототипа нашел описание ориентации белка в мембране в БД
OPM (Orientations of Proteins in Membranes database).
Получилось, что в сторону межмембранного пространства 2-10, 92-111, 198-209;
в сторону матрикса расположены сегменты 34-72, 139-171, 236-268, 293-298;
внутри мембраны расположены сегменты 11-33, 73-91, 112-138, 172-197, 210-235, 269-292.
В файле marking.msf ниже последовательности прототипа добавил последовательность
с названием "OPM". Позиции мембранных сегментов отмечены буквой "Н", позиции цитоплазматических петель знаком "+",
остальные - знаком "-".
Получил новый файл.
Предсказание топологии заданного белка с помощью наиболее популярной программы (TMHMM)
Результат предсказания топологии заданного белка Q8AYM3:
в сторону межмембранного пространства распологаются сегменты 1-111, 195-208;
в сторону матрикса 135-171, 232-298;
внутри мембраны 112-134, 172-194, 209-231.
# Q8AYM3_Q8AYM3_CHICK_ Length: 298
# Q8AYM3_Q8AYM3_CHICK_ Number of predicted TMHs: 3
# Q8AYM3_Q8AYM3_CHICK_ Exp number of AAs in TMHs: 70.89884
# Q8AYM3_Q8AYM3_CHICK_ Exp number, first 60 AAs: 0.61985
# Q8AYM3_Q8AYM3_CHICK_ Total prob of N-in: 0.30300
Q8AYM3_Q8AYM3_CHICK_ TMHMM2.0 outside 1 111
Q8AYM3_Q8AYM3_CHICK_ TMHMM2.0 TMhelix 112 134
Q8AYM3_Q8AYM3_CHICK_ TMHMM2.0 inside 135 171
Q8AYM3_Q8AYM3_CHICK_ TMHMM2.0 TMhelix 172 194
Q8AYM3_Q8AYM3_CHICK_ TMHMM2.0 outside 195 208
Q8AYM3_Q8AYM3_CHICK_ TMHMM2.0 TMhelix 209 231
Q8AYM3_Q8AYM3_CHICK_ TMHMM2.0 inside 232 298
Выравнивание с искусственной последовательностью, отражающей результаты данного предсказания.
Эту последовательность назвали "TMHMM", а так же в текстовом формате "TMHMM".
Оценка качества предсказания
В этом задании необходимо сравнить полученное предсказание с данными OPM.
Для этого нужно было подсчитать 4 числа TP,TN,FP,FN, описание которых дано в
таблице
Результаты предсказания топологии мембранного белка Q8AYM3_CHICK
|
Число а.к. остатков |
Всего а.к. остатков |
298 |
Остатки, предсказанные как локализованные в мембране (всего) |
69 |
Правильно предсказали (true positives, TP) |
65 |
Предсказали не то, что нужно (а.о. предсказаны как мембранные, а по данным ОРМ таковыми не являются, false positives, FP) |
4 |
Правильно не предсказали ( не предсказаны, и по данным ОРМ не находятся в мембране, true negatives, TN) |
149 |
Не предсказали то, что нужно (остатки по данным ОРМ находятся в мембране, false negatives, FN) |
80 |
Чувствительность (sensivity) = TP / (TP+FN) |
0.448 |
Специфичность (specificity) =TN / (TN+FP) |
0.974 |
Точность (precision) = TP / (TP+FP) |
0.942 |
Сверхпредсказание = FP/ (FP+TP) |
0.058 |
Недопредсказание = FN / (TN+FN) |
0.349 |
Вывод:
Были получены следующие данные:
Чувствительность: отношение правильно предсказанных к реальному значению( TP / (TP+FN))
- способность программы отыскивать нужное - в данном случае невысокая(0.448)
Специфичность: по отношению TN/(TN+FP) можно судить о способности программы не брать лишние остатки, в данном
случае равное 0.974
Недопредсказание = FN / (TN+FN),где TN+FN=остатки, предсказанные как немембранные, - доля неправильно предсказанных
немембранных участков (0.349).
На основе данных таблицы можно сделать вывод, что сервер TMHMM сделал не очень качественное
предсказание для белка Q8AYM3_CHICK, так как значение чувствительности достаточно низкое, а недопредсказания достаточно
высокое.Общее число ошибок (80+4=84 - неправильно предсказанных позиций) составляет почти 28,19% от общего
числа остатков исследованной последовательности (298 а.о.), что достаточно много.
©Долудин Юрий