Сравнение выравниваний

Гомологичные и негомологичные белки

Для пяти пар гомологичных и пяти пар негомологичных белков из протеомов штамма K12 кишечной палочки и штамма 168 сенной палочки из базы данных SwissProt были получены выравнивания с помощью программ needle и water из пакета EMBOSS.
Для подсчета числа инсерций-делеций и быстрого доступа к информации о выравнивании были написаны скрипты на bash. Вы можете скачать их для глобального и локального выравниваний. Они принимают на вход мнемоники двух последовательностей (сначала для кишечной, затем для сенной палочки), создают файл соответствующего выравнивания и выдают информацию о нем, в том числе число инделов, на стандартный вывод.

Результат доступен в Таблице.

Выводы:
1. Identity для гомологичных белков, как в случае глобального, так и в случае локального выравнивания, не меньше 25%, а similarity - не меньше 40%. Думаю, это справедливо и для других белков, не рассмотренных мною.
2. В случае выравниваний, полученных алгоритмом Нидлмана-Вунша, identity не превышает 15%, а similarity может достигать 20%. Алгоритм Смита-Ватермана может давать очень высокие значения similarity, однако процент покрытия в таких случаях чрезвычайно низкий (<10%).
3. Для гомологичных белков особых различий между выравниями, полученными разными алгоритмами, не обнаружено, однако можно предположить, что в некоторых случаях алгоритм Смита-Ватермана может выявить менее различающиеся участки, такие как, например, активный центр, в то время как алгоритм Нидлмана-Вунша даст плохой результат из-за больших различий в менее значимых участках.

Различные программы выравнивания

Было получено множественное выравнивание 6 гомологичных белков, а именно 6-фосфоглюконатдегидрогеназы (декарбоксилирующей), осуществляющей превращение 6-фосфо-D-глюконата в D-рибулозо-5-фосфат с отщеплением CO2 и восстановлением NADP+, полученной из шести различных видов.
Скачать результат в формате проекта Jalview.
Затем были удалены все последовательности, кроме таковых из Shigella connei и Chlamydia muridarum strain MoPn/Nigg. Для них были также получены глобальное и локальное выравнивания.
В целом, для выбранных мною белков особых различий между выравниваниями не было обнаружено. Однако некоторые все же имеются:
1. В локальном выравнивании отсутствуют участки в начале и конце, которые имеются только в белке C. muridarum (см. Рис. 1).
2. В множественном выравивании отличается участок с 45 по 51 позицию (см. Рис. 2). Гэпы в последовательности S. connei не напротив аспарагина и изолейцина, а напротив глутаминовой кислоты и другого гэпа.
3. Кроме того, в множественном выравивании отличается участок с 307 по 314 позицию (см. Рис. 3). Так же, как и в предыдущем случае, одни гэпы стоят напротив других: это имело смысл при выравивании сразу шести последовательностей, но в случае только двух не является оптимальным.

Изображение не найдено. Вы можете сообщить об этом: daniil.bobrovsky@fbb.msu.ru
Рис. 1. Здесь и далее: сверху вниз множественное, глобальное и локальное выравнивания.
Изображение не найдено. Вы можете сообщить об этом: daniil.bobrovsky@fbb.msu.ru
Рис. 2.
Изображение не найдено. Вы можете сообщить об этом: daniil.bobrovsky@fbb.msu.ru
Рис. 3.