Парные выравнивания белков. Применение алгоритмов парных выравниваний к белку KAD_BACSU

Сравнение матриц аминокислотных замен

Сравним величины замен глутамина на разные аминокислоты в разных матрицах аминокислотных замен, а именно: BLOSUM62, PHAT_T75_B73 и матрице, восстановленной в первом задании.
Матрица BLOSUM62 получена эмпирическим путем на основе базы данных Blocks в 1992 году. 62 (%) - порог кластеризации, который нужен, чтобы учесть случайные сдвиги встречаемости в базе данных.
Матрица PHAT создана для трансмембранных белков в 2000 году. Эту матрицу потребовалось создавать отдельно, потому что в трансмембранных белках может быть сильно смещена встречаемость аминокислот. Это происходит, потому что в трансмембранных белках встречаются участки с повышенным содержанием определенных аминокислот, которые нужны для закрепления в мембране.
Моя матрица реконструирована аналогично матрице BLOSUM62 на основании более новой версии Blocks. Поэтому эти две матрицы в большой мере схожи.

Глутамин Аспарагин Валин Триптофан Лизин
Трехбуквенный код Gln Asn Val Trp Lys
Однобуквенный код Q N V W K
Величина замены в BLOSUM62 5 0 -2 -2 1
Величина замены в PHAT_T75_B73 9 2 -3 1 0
Величина замены в моей матрице 6 0 -2 -2 1

Положительное значение говорит о частоте замены, отрицательное - о редкости. Ноль означает, что встречаемость укладывается в рамки статистической погрешности, то есть встречается случайно.
Видно, что значение замены глутамин-глутамин везде положительно, так как такая замен часта. Замена глутамина на аспарагин имеет везде значения большие либо равные нуля, так как аспарагин очень похож на глутамин.
Замена на валин везде имеет отрицательные значения, потому что валин гидрофобен, а глутамин - гидрофилен.
На примере триптофана видно, насколько смещена встречаемость аминокислот в трансмембранных белках.

Сравнение выравниваний, полученных для коротких мутантов вручную и построенных классическими алгоритмами Нидлмана-Вунша и Смита-Ватермана

Не так давно мною были получены мутантные участки белка KAD_BACSU, которые выравнивались с ним вручную. Теперь применим к ним алгоритмы Нидлмана-Вунша и Смита-Ватермана.

needle

Алгоритм Нидлмана-Вунша служит для построения глобальных выравниваний. Его принцип заключается в построении чего-то вроде матрицы или таблицы, на сторонах которой лежат последовательности выравниваниваемых белков. Есть неокторая стартовая точка, от которой нужно провести путь до противоположного конца матрицы. Стартовая точка - сопоставление первых аминокислот, здесь, как и везде, возможно 3 варианта: гэп в перовм белке, гэп в другом белке или замена. У каждого из этих вариантов есть свое значение, которое берется из матрицы (изначально за совпадение аминокислот брали +1, а за несовпадение - 1).
Есть стандартные параметры для значений гэпов: gapopen = 10.0 (штраф за открытие), gapextend = 0,5 (штраф за продолжение).
Для построения выравнивания нужно пройти путь, сумма значений на котором наибольшая. Этот путь запоминается и по нему восстанавливается выравнивание. Так работает команда needle. Команда:
needle sw:kad_bscsu [файл с мутантной последовательностью]
На выходе получается выравнвнивания:
KAD_BACSU          1 MNLVLMGLPGAGKGTQGERIVEDYGIPHISTGDMFRAAMKEETPLGLEAK     50
                                                                       
                   0 --------------------------------------------------      0

KAD_BACSU         51 SYIDKGELVPDEVTIGIVKERLGKDDCERGFLLDGFPRTVAQAEALEEIL    100
                                                                       
                   0 --------------------------------------------------      0

KAD_BACSU        101 EEYGKPIDYVINIEVDKDVLMERLTGRRICSVCGTTYHLVFNPPKTPGIC    150
                                                                       
                   0 --------------------------------------------------      0

KAD_BACSU        151 DKDGGELYQRADDNEETVSKRLEVNMKQTQPLLDFYSEKGYLANVNGQQD    200
                                       |||.||.||:||.|| ||.||           
                   1 ------------------SKRPEVQMKKTQILL-FYCEK-----------     20

KAD_BACSU        201 IQDVYADVKDLLGGLKK    217
                                      
                  20 -----------------     20

KAD_BACSU          1 MNLVLMGLPGAGKGTQGERIVEDYGIPHISTGDMFRAAMKEETPLGLEAK     50
                                                                       
                   0 --------------------------------------------------      0

KAD_BACSU         51 SYIDKGELVPDEVTIGIVKERLGKDDCERGFLLDGFPRTVAQAEALEEIL    100
                                                                       
                   0 --------------------------------------------------      0

KAD_BACSU        101 EEYGKPIDYVINIEVDKDVLMERLTGRRICSVCGTTYHLVFNPPKTP-GI    149
                                                             ||.|:|| |.
                   1 ----------------------------------------FNAPQTPNGQ     10

KAD_BACSU        150 CDKDGGELYQRADDNEETVSKRLEVNMKQTQPLLDFYSEKGYLANVNGQQ    199
                     |...|.|:.:                                        
                  11 CWWHGQEVQR----------------------------------------     20

KAD_BACSU        200 DIQDVYADVKDLLGGLKK    217
                                       
                  20 ------------------     20
KAD_BACSU          1 MNLVLMGLPGAGKGTQGERIVEDYGIPHIST-GDMFRAAMKE-ETPLGLE     48
                                                :||| ||||||...| :||.   
                   1 ---------------------------NISTRGDMFRAGSGENDTPC---     20

KAD_BACSU         49 AKSYIDKGELVPDEVTIGIVKERLGKDDCERGFLLDGFPRTVAQAEALEE     98
                                                                       
                  20 --------------------------------------------------     20

KAD_BACSU         99 ILEEYGKPIDYVINIEVDKDVLMERLTGRRICSVCGTTYHLVFNPPKTPG    148
                                                                       
                  20 --------------------------------------------------     20

KAD_BACSU        149 ICDKDGGELYQRADDNEETVSKRLEVNMKQTQPLLDFYSEKGYLANVNGQ    198
                                                                       
                  20 --------------------------------------------------     20

KAD_BACSU        199 QDIQDVYADVKDLLGGLKK    217
                                        
                  20 -------------------     20


К ним приведены некоторые параметры (identity, similarity, вес, количество гэпов). Сравним сведения, полученные ручным выравниванием и командой needle.

Change Replace Identity (needle) Similarity (needle) Identity (вручную) Similarity (вручную)
0,4 0,8 15 (6,9%) 16 (7,4%) 15 17
0,6 0,6 9 (4,1%) 12 (5,5%) 11 11
0,6 0,8 12 (5,5%) 14 (6,4%) 12 14

Подробнее о выравнивании вручную написано здесь.

water

Алгоритм Смита-Ватермана похож на алгортм Нидлмана-Вунша, но служит для построения локального выравнивания, то есть ищет наиболее похожий участок и выравнивает его. Для этого в матрице выравнивания стоят несколько другие числа, чем в needle.
Стандартные параметры штрафа за гэпы тут такие же, как и в needle.

KAD_BACSU        169 SKRLEVNMKQTQPLLDFYSEK    189
                     |||.||.||:||.|| ||.||
                   1 SKRPEVQMKKTQILL-FYCEK     20
   
KAD_BACSU        141 FNPPKTP-GICDKDGGEL    157
                     ||.|:|| |.|...|.|:
                   1 FNAPQTPNGQCWWHGQEV     18
   
KAD_BACSU         28 HIST-GDMFRAAMKE-ETP     44
                     :||| ||||||...| :||
                   1 NISTRGDMFRAGSGENDTP     19
   

Главная страница Первый семестр Второй семестр Обо мне Ссылки

© Марк Меерсон, 2013
Последнее обновление: 05.04.2013