Выравнивание последовательностей белков DnaJ, recA и CheW.
Первым этапом было написание программы для подсчёта инделей в python.
Мой код сначала проверяет все мнемоники белков, а потом ищет для них индели в каноничной выдаче needle и water.
Я скачал два списка идентификаторов вида "*_ECOLI" и "*_BACSU". Потом при помощи средств электронных таблиц выбрал белки:
Гипотетически, эти белки должны демонстрировать различную степень консервативности. То есть, recA, отвечающий за репарацию, должен быть очень консервативным, поскольку изменения в нём могут привести к гибели в большем количестве случаев, чем изменения в белке хемотаксиса.
| Protein Name | ID 1 | ID 2 | Score | % Identity | % Similarity | Gaps | Indels | Recombinase A | RECA_ECOLI | RECA_BACSU | 1069.5 | 56.9% | 75.7% | 23 | 4 | Chaperone protein DnaJ | DNAJ_ECOLI | DNAJ_BACSU | 991.5 | 51.8% | 67.0% | 25 | 11 | Chemotaxis protein CheW | CHEW_ECOLI | CHEW_BACSU | 197.5 | 26.1% | 46.7% | 37 | 4 |
|---|
Действительно, большую консервативноть показала рекомбиназа А, но выводов для выборки из двух бактерий я делать не буду.
| Protein Name | ID 1 | ID 2 | Score | % Identity | % Similarity | Gaps | Indels | Coverage 1 | Coverage 2 | Recombinase A | RECA_ECOLI | RECA_BACSU | 1072.5 | 58.5% | 77.8% | 16 | 3 | 98,3% | 98,0% | Chaperone protein DnaJ | DNAJ_ECOLI | DNAJ_BACSU | 991.5 | 51.8% | 67.0% | 25 | 9 | 98,7% | 99,2% | Chemotaxis protein CheW | CHEW_ECOLI | CHEW_BACSU | 197.5 | 26.1% | 46.7% | 37 | 3 | 91,6% | 92,3% |
|---|
В целом, здесь локальное выравнивание очень мало отличается от глобального, потому что мы сравниваем гомологичные белки.
Локальное выравнивание в этом случае не учитывает гэпы на концах выравнивания, что повышает score.
| ID 1 | ID 2 | Score | % Identity | % Similarity | Gaps | Indels | RECA_ECOLI | DNAJ_ECOLI | 38.0 | 9.7% | 18.0% | 325 | 17 |
|---|
Такое глобальное выравнивание по большей части представляет собой пустые строчки, что видно по количеству гэпов. Полных совпадений участков почти нет, процент идентичности - всего 9,7%.
| ID 1 | ID 2 | Score | % Identity | % Similarity | Gaps | Indels | Coverage 1 | Coverage 2 | RECA_ECOLI | RECA_BACSU | 51.5 | 17.7% | 34.5% | 57 | 10 | 52,4% | 43,7% |
|---|
Были получены результаты схожей степени печальности. Присутствуют схожие участки, но полной идентичности нет ни по одному. Теоретически, такое выравнивание может находить схожие или гомологичнные участки. Но не в этом случае.
Я решил искать белки для мнемоники "RECA_*", потому что выше для неё были получены неплохие результаты по консервативности.
В целом, все белки выровнялись хорошо, все гомологичны. Есть консервативные и неконсервативные участки.
Например, высококонсервативным участком является реакционный центр (82-91 столбцы выравнивания), а низкоконсервативным - C-концевой участок.