В этой работе мы должны были изучить процесс выравнивания биологических последовательностей на примере первичной структуры белков.
Сначала мы скачали из Uniprot два списка идентификаторов (ID) записей: всех аннотированных записей, чей идентификатор кончается на _ECOLI (strain K12 ) и всех аннотированных записей, чей идентификатор кончается на _BACSU (strain 168).
Затем с помощью Excel определили пары белков из двух списков, чьи идентификаторы Swiss-Prot имеют одинаковую мнемонику функции, выбрали три пары белков и выровняли последовательности каждой пары программой needle при параметрах по умолчанию.
В графе DE в UniProt определили полные названия белков (см. предыдущие практикумы).
Для получения выравнивания использовали команду:needle sw:id sw:id needle.needle -auto
Результаты можно увидеть в таблице 1.
Пояснение к таблице: словом Identity обозначается доля полностью одинаковых аминокислот в выравнивании, а Similarity - доля похожих по физико-химическим свойствам аминокислот. Иначе говоря, тех замен, у которых в матрице Blossum стоят положительные значения. Словом gap обозначается единичный разрыв последовательности длиной 1, а indel (insertion/deletion) - единичный разрыв любой длины.
Таблица 1. Глобальное выравнивание алгоритмом Нидлмана-Вунша
Protein Name | ID 1 | ID 2 | Score | % Identity | % Similarity | Gaps | Indels |
Glycogen phosphorylase (EC 2.4.1.1) (файл) |
PHSG_ECOLI | PHSG_BACSU | 1747.0 | 43.1% | 61.4% | 33 | 9 |
Cardiolipin synthase B (CL synthase) (EC 2.7.8.-) (файл) |
CLSB_ECOLI | CLSB_BACSU | 316.5 | 22.6% | 36.6% | 117 | 14 |
60 kDa chaperonin (GroEL protein) (Protein Cpn60) (Stress protein H5) (файл) |
CH60_ECOLI | CH60_BACSU | 1694.5 | 61.5% | 77.3% | 8 | 5 |
Чтобы посчитать процент покрытия локальным выравниванием для каждой последовательности, мы определили длину участка, попавшего в выравнивание (по координатам начала и конца) и разделили эту длину на полную длину последовательности.
Для получения выравнивания использовали команду:water sw:id sw:id water.water -auto
Таблица 2. Локальное выравнивание алгоритмом Смита-Ватермана
Protein Name | ID 1 | ID 2 | Score | % Identity | % Similarity | Gaps | Indels | Coverage 1 | Coverage 2 |
Glycogen phosphorylase (EC 2.4.1.1) (файл) |
PHSG_ECOLI | PHSG_BACSU | 1753.5 | 44.1% | 62.8% | 23 | 6 | 98,9% | 98,0% |
Cardiolipin synthase B (CL synthase) (EC 2.7.8.-) (файл) |
CLSB_ECOLI | CLSB_BACSU | 332.5 | 27.5% | 45.6% | 26 | 7 | 96,5% | 95,3% |
60 kDa chaperonin (GroEL protein) (Protein Cpn60) (Stress protein H5) (файл) |
CH60_ECOLI | CH60_BACSU | 1695.5 | 61.7% | 77.6% | 7 | 4 | 99,5% | 98,9% |
Отметим ключевую особенность: при анализе гомологичных последовательностей, глобальные выравнивания не сильно отличаются от локального по Score, Identity или Similarity. При этом, локальное выравнивание гомологичных последовательностей дает еще и хорошее покрытие. Отсутствие разницы между needle и water неудивительно, ведь алгоритмы схожи и используют одну и ту же матрицу замен. Однако, локальное выравнивание выдает чуть более высокие значения схожести последовательностей.
В этом задании мы должны были сравнить негомологичные белки. Я решил заодно и проверить, являются ли гомологами белки из фотосистемы II растений и реакционный центр фотосинтеза пурпурных бактерий, потому что из биохимии фотосинтеза этих организмов становится ясно, что именно ферменты Q-цикла от пурпурных бактерий, видимо с помощью горизонтального переноса, достались цианобактериям. Для этого мы взяли белки Reaction center protein L chain из типовой пурпурной бактерии Rhodopseudomonas palustris и белок Photosystem II CP43 reaction center protein из модельного растения Arabidopsis thaliana
Таблица 3. Выравнивание некоторых квазислучайных последовательностей
Тип выравнивания | ID 1 | ID 2 | Score | % Identity | % Similarity | Gaps | Indels | Coverage 1 | Coverage 2 |
Глобальное (файл) | RCEL_RHOPA | PSBC_ARATH | 49.0 | 12.1% | 20.0% | 312 | 20 | - | - |
Локальное (файл) | RCEL_RHOPA | PSBC_ARATH | 62.5 | 21.3% | 31.6% | 106 | 17 | 68,8% | 90,1% |
Бактерии и растения разошлись эволюционно очень далеко, поэтому неудивительно низкое сходство. Хотя, значение сходства в 30% при локальном выравнивании может говорить о какой-то эволюционной связи этих двух белков.
В этом задании нужно было выполнить множественное выравнивание гомологов из первой части. Мы взяли гликоген-фосфорилазу.
В UniProt нашлось всего 15 белков, чему я очень удивлен, ведь у кого только не должно быть гликоген-фосфорилазы. Из них мы выбрали 7 для дальнейшего анализа:
PHSG_ECOLI - Escherichia coli - Гамма-протеобактерии
PHSG_BACSU - Bacillus subtilis - Фирмикуты
PHSG_YEAST - Saccharomyces cerevisiae - Аскомицеты
PHSG_MYCTU - Mycobacterium tuberculosis - Актинобактерии
PHSG_AQUAE - Aquifex aeolicus - Aquificae (термофильная бактерии)
PHSG_SYNY3 - Synechocystis sp. - Цианобактерии
PHSG_HAEIN - Haemophilus influenzae - Гамма-протеобактерии
Мы записали идентификаторы в текстовый файл sw.txt, затем с помощью командыseqret @sw.txt sw.fasta
получили файл с последовательностями белков.
После этого мы запустили алгоритм множественного выравнивания Muscle командойmuscle -in sw.fasta -out alignment.fasta
Затем мы импортировали выравнивание в графический интерфейс Jalview и покрасили по степени идентичности.
Итоговый файл выравнивания можно посмотреть тут
Рис. 1. Полученное выравнивание в Jalview. Кликните на изображение, чтобы улучшить качество
Также мы проверили выравнивание на адекватность построением на его основе неукорененного филогенетического дерева генов методом Neighbor-joining, доступным в самом интерфейсе программы. Это не самый лучший метод, но поскольку мы рассматриваем гомологичные белки, в некотором приближении этим можно пренебречь.
Факт того, что дрожжи (единственные здесь эукариоты) были вынесены в отдельную базальную кладу, а гамма-протеобактерии оказались вместе, говорит о том, что выравнивание можно считать хорошим. Также об этом свидетельствует совпадение многих не коротких участков, как например на рисунке 1.
В этой части мы решили выровнять белок-герой из предыдущих практикумов с его гомологом. Не знаю зачем я уже 100 раз просто делаю выравнивания.
Для этого мы нашли с помощью BLAST какого-нибудь родственника из Swiss-Prot. Им оказался еще один псевдоазурин из клубеньковой бактерии Rhizobium leguminosarum
Таблица 4. Выравнивание белка псевдоазурина с его гомологом
Тип выравнивания | ID 1 | ID 2 | Score | % Identity | % Similarity | Gaps | Indels | Coverage 1 | Coverage 2 |
Глобальное (файл) | AZUP_ACHCY | AZUP_RHILV | 453.0 | 57.6% | 67.1% | 12 | 2 | - | - |
Локальное (файл) | AZUP_ACHCY | AZUP_RHILV | 460.0 | 63.6% | 74.1% | 1 | 1 | 98,6% | 99,3% |
Почти 100% покрытие и высокая степень идентичности говорит нам о том, что скорее всего эти белки гомологичны, причем поскольку они из разных организмов, это - ортологи. Значит, связывающий медь псевдоазурин появился давно и возможно как-то связан с азотфиксацией.
Ранее мы проводили выравнивание на настройках по умолчанию, поэтому стало интересно, какие параметры с нас спросят, если убрать автоматическое заполнение. Оба алгоритма запросили Gap opening penalty (штраф за открытие gap, по умолчанию 10.0) и Gap extension penalty (штраф за продолжение gap, по умолчанию 0.5). Штрафы за соответствие и за несоответствие учтены и без нас с помощью матрицы Blossum.