Таблицу с идентификаторами скачала с Uniprot. Использовала следующие запросы: "mnemonic:*_ECOLI reviewed:yes" и "mnemonic:*_BACSU reviewed:yes". Объединила две таблицы в один файл и отсортировала по названию.
Далее выбрала для выравниваний 3 белка: 6-фосфоглюконатдегидрогеназу, 6-фосфоглюконолактоназу и аспартаткиназу.
Выравнила при помощи команды needle для выравнивания по Ниделману-Вуншу из пакета EBLOSSUM. Пример использования ниже.
needle 'sw:6PGD_ecoli' 'sw:6PGD_bacsu' 6PGD.needle -auto
Результаты свела в таблицу.
name | ID1 | ID2 | score | identify | similarity | gaps | indels |
6-phosphogluconate dehydrogenase, NADP(+)-dependent, decarboxylating/ 6-phosphogluconate dehydrogenase, decarboxylating |
6PGD_BACSU | 6PGD_ECOLI | 1718.0 | 70.0% | 83.4% | 3 | 3 |
6-phosphogluconolactonase | 6PGL_BACSU | 6PGL_ECOLI | 304.5 | 25.3% | 42.0% | 62 | 12 |
Aspartokinase 3/Lysine-sensitive aspartokinase 3 | AK3_BACSU | AK3_ECOLI | 358.5 | 26.7% | 43.6% | 65 | 17 |
Белковые последовательности выравнила командой water для локального выравнив по Смиту-Уотерману из пакета EBLOSSUM. Пример использования:
water 'sw:6PGD_ecoli' 'sw:6PGD_bacsu' 6PGD.water -auto
Результаты выравнивания сведены в таблице
name | ID1 | ID2 | score | identify | similarity | gaps | indels | coverage 1 | coverage 2 |
6-phosphogluconate dehydrogenase, NADP(+)-dependent, decarboxylating/ 6-phosphogluconate dehydrogenase, decarboxylating | 6PGD_BACSU | 6PGD_ECOLI | 1719.0 | 70.1% | 83.6% | 3 | 3 | 99,8% | 99,8% |
6-phosphogluconolactonase | 6PGL_BACSU | 6PGL_ECOLI | 317.0 | 30.6% | 48.7% | 16 | 4 | 75,1% | 76,1% |
Aspartokinase 3/Lysine-sensitive aspartokinase 3 | AK3_BACSU | AK3_ECOLI | 360.5 | 27.3% | 44.4% | 57 | 14 | 98,2% | 98,7% |
Аналогично предыдущим провела выравнивания двух негомологичных последовательностей: 53DR_BACSU и 3MG1_ECOLI. Результаты представлены в таблице
выравнивание | ID1 | ID2 | score | identify | similarity | gaps | indels | Coverage 1 | Coverage 2 |
глобальное | 53DR_BACSU | 3MG1_ECOLI | 22.5 | 13.2% | 26.0% | 125 | 12 | |
|
локальное | 53DR_BACSU | 3MG1_ECOLI | 29.0 | 19.4% | 35.7% | 48 | 8 | 51,81% | 60,96% |
Идентичность, схожесть и покрытие у этих последовательностей ниже, чем у гомологичных. Инделей меньше, поскольку для выравнивания двух несхожих последовательностей оптимально выравнять их на гэпы.
Произвела поиск по запросу "mnemonic:6pgd_*" в UniProt. Всего таких белков в базе данных 57. Для анализа выбрала 6-фосфоглюконатдегидрогеназу Schizosaccharomyces pombe, Lactococcus lactis subsp. cremoris, Dictyostelium discoideum, Chlamydia trachomatis и человека.
Написала текстовый файл с мнемониками белков 6PGD_homologs.txt, создала fasta-файл с их последовательностями при помощи команды
seqret @6PGD_homologs.txt 6PGD.fasta
Произвела множественное выравнивание при помощи muscle[1].
muscle -in 6PGD.fasta -out 6pgd_align.fasta
Далее полученный файл открыла в Jalview, колонки раскрасила по проценту. Полученный проект доступен по ссылке или в гугл-диске.
Выравнивание в виде картинки представлено ниже
Видно, что есть участки с большей и меньшей схожестью. Самые консервативные участки, вероятно, влияющие на функцию или общую структуру белка, выделены темно-синим.
[1] Edgar, R.C. Nucleic Acids Res 32(5), 1792-97.