В настоящее время существует несколько широкоиспользуемых и общепринятых матриц. Наиболее известная из них, - матрица весов BLOSUM62, была разработана 1992 году.
Цифра 62 в названии матрицы обозначает порог кластеризации - т.е, такой процент идентичности последовательностей, выше которого все последовательности множественного выравнивания базы Blocks объединяются в кластеры. Для кластеров устанавливается определённый штрафной коэффициент при подсчёте пар соответсвий аминокислотных остатков. Эта процедура предотвращает искажение результатов при наличии большого количества очень похожих белков в базе Blocks. Мембранные белки имеют свою специфику, часто их некорректно анализировать с использованием BLOSUM62. Специально для них была разработана аналогичная матрица, получившая название PHAT.
Целью данной работы было построение собственной матрицы весов по данным из BLOCKS и сравнение ее с каноническими матрицами. Полученая матрица практически идентична матрице BLOSUM62, так как построена по схожим исходным данным.
Следует понимать, что сравнивать матрицу BLOSUM и PHAT не совсем корректно, так как:
Сравнение величин в полученной матрице, матрице BLOSUM62 и PHAT_T75_B73 для аминокислоты глутамата представлено в таблице 1
Таблица 1> Сравнение матриц аминокислотных замен для глутамата | ||||||||||||||||||||
однобуквенное обозначение | G | P | C | S | T | N | Q | D | E | H | R | K | A | M | I | L | V | F | W | Y |
трехбуквенное обозначение | Gly | Pro | Cys | Ser | Thr | Asn | Gln | Asp | Clu | His | Arg | Lys | Ala | Met | Ile | Leu | Val | Phe | Trp | Tyr |
Полученная мною матрица | -2 | -1 | -4 | -1 | -1 | -1 | 2 | 2 | 6 | -1 | 0 | 1 | -1 | -2 | -3 | -3 | -2 | -3 | -3 | -2 |
BLOSUM62 | -2 | -1 | -4 | 0 | -1 | 0 | 2 | 2 | 5 | 0 | 0 | 1 | -1 | -2 | -3 | -3 | -2 | -3 | -3 | -2 |
PHAT_T75_B73 | -3 | -5 | -7 | -3 | -5 | 0 | 1 | 6 | 12 | -1 | -6 | -4 | -5 | -5 | -5 | -5 | -5 | -5 | -7 | -2 |
Для парного выравнивания белковых последовательностей используют различные алгоритмы.
Один из них - это алгоритм Нидлмана-Вунша позволяет создать глобальное выравнивание двух последовательностей, т.е. этот алгоритм выравнивает полноразмерные последовательности. Данный алгоритм использует в своей работе программа needle из пакета EMBOSS.
Другой алгоритм - Смита-Ватермана позволяет создать локальные выравнивания, т.е. он ищет наиболее близкие участки последовательностей. Данный алгоритм использует в своей работе программа water из пакета EMBOSS. Обе программы, как needle, так и water, используют одинаковые обязательные параметры:В данной работе, выравниванию подвергались последовательности белка TENA_BACSU и его искусственно полученные при помощи скрипта evolve_protein.pl мутанты.
Из последовательности каждого мутанта вырезался кусок в 20 аминокислотных остатков, который и использовался для выравнивания.
TENA_BACSU 1 MKFSEECRSAAAEWWEGSFVHPFVQGIGDGTLPIDRFKYYVLQDSYYLTH 50 |..|.|.|.|.|||..:|.. generations=1 1 -----------------------VSTIEDETHPADRFARWVSL------- 20
TENA_BACSU 24 VQGIGDGTLPIDRFKYYV 41 |..|.|.|.|.|||..:| generations=1 1 VSTIEDETHPADRFARWV 18
TENA_BACSU 151 PGHPIYQKWIGTYGGDWFRQQVEEQINRFDELAENSTEEVRAKMKENFVI 200 |..|.|.||:...:..|:|| generations=1 1 ---------------------------RNKEFAHNSSAVQKNVMREN--- 20
TENA_BACSU 178 RFDELAENSTEEVRAKMKEN 197 |..|.|.||:...:..|:|| generations=1 1 RNKEFAHNSSAVQKNVMREN 20
TENA_BACSU 51 FAKVQSFGAAYAKDLYTTGRMASHAQGTYEAEMALHR-EFAELLEISEEE 99 |||.||.|| |..|:|.:.| generations=1 1 ----------------------------YEAIMAAHREEIEEMLHVGE-- 20
TENA_BACSU 79 YEAEMALHR-EFAELLEISE 97 |||.||.|| |..|:|.:.| generations=1 1 YEAIMAAHREEIEEMLHVGE 20
Значения identity и similarity полученные с помощью needle не совпадают с ручным подсчетом и подсчетом по water, т. к. needle выравнивает глобально и считает процент идетичности и сходства относительно всей длины белка
Значения identity и similarity полученные с помощью water и ручного выравнивания в целом близки, т. к. и там и там локальное выравнивание, но в некоторых случаях не совпадают, это связано с тем, что water выбирает лишь самые похожие участки, т.е длина последовательности становится меньше 20 (мутант 1).