Сравнение матриц аминокислотных замен
Матрицы типа BLOSUM используются для выравнивания цитоплазматических белков, а матрицы типа PHAT - для мембранных белков.
Цифра 62 в названии матрицы BLOSUM62 означает, что процент кластеризации равен 62%. В свою очередь это значит, что все последовательности множественного выравнивания базы Blocks с процентом идентичности больше 62% объединяются в кластеры, для которых устанавливается определённый штрафной коэффициент при подсчёте пар соответсвий аминокислотных остатков. Как результат, эта процедура предотвращает искажение результатов при наличии большого количества очень похожих белков в базе Blocks.
Матрицы типа BLOSUM и PHAT используют одну и ту же базу BLOCKS, но в то время как BLOSUM использует цитоплазматические белки, для матриц PHAT отбираются (программой PHDhtm) только трансмембранные регионы последовательностей.
Сравнение величин в восстановленной матрице, матрице BLOSUM62 и PHAT_T75_B73 для аминокислоты аргинина представлено в таблице 1.
Таблица 1 Сравнение матриц аминокислотных замен для аргинина | ||||||||||||||||||||
1-буквенное обозначение | G | P | C | S | T | N | Q | D | E | H | R | K | A | M | I | L | V | F | W | Y |
3-буквенное обозначение | Gly | Pro | Cys | Ser | Thr | Asn | Gln | Asp | Glu | His | Arg | Lys | Ala | Met | Ile | Leu | Val | Phe | Trp | Tyr |
Восстановленная матрица | -2 | -1 | -3 | -1 | -1 | -1 | 1 | -1 | 0 | 0 | 6 | 2 | -2 | -2 | -3 | -2 | -3 | -3 | -1 | -2 |
BLOSUM62 | -2 | -2 | -3 | -1 | -1 | 0 | 1 | -2 | 0 | 0 | 5 | 2 | -1 | -1 | -3 | -2 | -3 | -3 | -3 | -2 |
PHAT_T75_B73 | -5 | -7 | -8 | -6 | -6 | -3 | -2 | -7 | -6 | -4 | 9 | -1 | -6 | -6 | -6 | -6 | -7 | -7 | -7 | -6 |
Сравнение выравниваний, полученных для коротких мутантов вручную и построенных классическими алгоритмами Нидлмана-Вунша и Смита-Ватермана
В пакете EMBOSS для парного выравнивания существуют программы needle, которая реализует алгоритм Нидлмана-Вунша, и water, реализующпя алгоритм Смита-Ватермана. Принципиальное различие между ними заключается в том, что needle выравнивает последовательности по всей длине и выбирает наиболее подходящее, а water подбирает наилучшим образом выравненные участки последовательности, никак не учитывая оставшиеся.
Обе программы, как needle, так и water, используют одинаковые обязательные параметры:
- [-asequence] - первая последовательность (fasta-файл или USA)
- [-bsequence] - вторая последовательность (fasta-файл или USA)
- -gapopen - штраф за открытие гэпа - число от 0.000 до 100.000 (по умолчанию 10.0)
- -gapextend - штраф за продолжение гэпа, обычно меньше чем за открытие - число от 0.000 до 100.000 (по умолчанию 0.5)
- [-outfile] - файл для записи результатов (по умолчанию *.needle и *.water)
Сравнение выравниваний
Таблица 2 Выравнивание белка с мутантом №1_1 | ||||
---|---|---|---|---|
Ручное выравнивание | Identity = 7/22 = 32% | Similarity = 8/22 = 36% | Blosum62 score = 18 | |
Needle | Identity = 4/199 = 2% | Similarity = 9/199 = 4.5% | Blosum62 score = 17 | |
Water | Identity = 4/5 = 80% | Similarity = 4/5 = 80% | Blosum62 score = 18 |
Выравнивание белка с мутантом №2_1 | ||||
---|---|---|---|---|
Ручное выравнивание | Identity = 9/20 = 45% | Similarity = 11/20 = 55% | Blosum62 score = 33 | |
Needle | Identity = 9/197 = 4.6% | Similarity = 10/197 = 5.1% | Blosum62 score = 29 | |
Water | Identity = 9/19 = 47.4% | Similarity = 10/19 = 52.6% | Blosum62 score = 32 |
Выравнивание белка с мутантом №3_1 | ||||
---|---|---|---|---|
Ручное выравнивание | Identity = 16/20 = 80% | Similarity = 16/20 = 80% | Blosum62 score = 76 | |
Needle | Identity = 16/196 = 8.2% | Similarity = 16/196 = 8.2% | Blosum62 score = 76 | |
Water | Identity = 16/18 = 88.9% | Similarity = 16/18 = 88.9% | Blosum62 score = 80 |
Как видно из таблицы 2, все 3 типа выравниваний могут дать абсолютно разный результат, но наибольшее доверие всё же заслуживает программное. В первых двух случаях мною не были учтены штрафы за гэпы, хотя процент идентичности получился не меньше (а в случае с мутантом №1_1 больше в 2 раза). Также хитрый water выровнял белок с мутантом №1_1 всего по 5 аминокислотным остаткам, получив identity в 80%, из-за чего все 3 выравнивания в этом случае оказались различными.