Выравнивания, 2
Практикум состоял из двух частей. Сначала было необходимо сравнить выравнивания гомологичных и негомологичных белков, затем провести сравнение разных алгоритмов выравнивания needle, water и muscle.
Часть 1
Ниже описана методика выполнения задания
- Получил список мнемоник белков ecoli с помощью команды infoseq 'sw:*_ecoli' -only -name -length -out ecoli.txt
- То же самое для bacsu
- Написал на python небольшие скриптики для извлечения одинаковых мнемоник белков примерно равных между собой по длине
- Построен конвейер для того, чтобы получить needle, water выравнивания и рекомендуемые имена белков. Примеры команд
entret sw:eno_bacsu stdout -auto | grep ^DE
needle sw:eno_ecoli sw:eno_bacsu eno.needle -auto -aformat fasta
water sw:eno_ecoli sw:eno_bacsu eno.needle -auto -aformat fasta - Затем была заполнена таблица
Вывод
Различить гомологичные и негомологичные белки действительно возможно, исходя из характеристик выравниваний. Не стоит смотреть на число очков присвоенных выравниванию и число гэпов, хотя у выравниваний гомологичных белков они оказались на 1-2 порядка (500-1500) больше, чем у негомологичных (20-30), а гэпов меньше: 50 и 500. Лучше всего обратить внимание на identity.
Часть 2
Мною был выбран белок гликоген-фосфорилаза. Для него были выполнены следующие операции.
- Для мнемоники PHSG были найдены последовательности 6 гомологичных белков у разных организмов.
- Для полученных последовательностей были построены выравнивания с помощью muscle. Команда: muscle -in phsg.fasta -out phsg_alignment.fasta
- Выравнивание визуализировали в программе JalView, из него были выбран две последовательности Aquifex aeolicus и Mycobacterium tuberculosis: гомологичные, но всё же наиболее заметно отличающиеся друг от друга.
- Для этих двух последовательностей были построены needle и water выравнивания
needle PHSG_AQUAE PHSG_MYCTO -auto > infoalign -out phsg_needle.infoalign -aformat3 fasta - Для трех выравниваний было построено "выравнивание" в программе muscle
muscle -profile -in1 phsg_needle.infoalign -in2 phsg_water.infoalign -out phsg_n-w.fasta
muscle -profile -in1 phsg_n-w.fasta -in2 phsg_alignment.fa -out phsg_n-w-a.fasta
Результаты
Различия выравниваний: 1)В needle выравнивании мы предполагаем, что произошла делеция по 19 и 20 позициям во второй последовательности, в water этот N-концевой фрагмент отсутствует, а в muscle мы предполагаем гомологичность остатков K и L, E и A. 2) В 95 и 96 позициях основываясь на needle и water выравнивнаиях можно предположить, что в первой последовательности произошла делеция аминокислот P и A, когда в muscle мы предполагаем, что они гомологичны K и L из первой. 3) В 260, 261, 262, 263 позициях needle и water отмечают предполагаемую гомологичность фрагмента первой последовательности LDAQ и фрагмента второй LDPQ, когда на muscle выравнивании мы видим делецию этого фрагмента.
©Бакулин Артемий, 2018