Выравнивание последовательностей белков


Глобальное парное выравнивание гомологичных белков

В этой работе мы должны были изучить процесс выравнивания биологических последовательностей на примере первичной структуры белков. Сначала мы скачали из Uniprot два списка идентификаторов (ID) записей: всех аннотированных записей, чей идентификатор кончается на _ECOLI (strain K12 ) и всех аннотированных записей, чей идентификатор кончается на _BACSU (strain 168). Затем с помощью Excel определили пары белков из двух списков, чьи идентификаторы Swiss-Prot имеют одинаковую мнемонику функции, выбрали три пары белков и выровняли последовательности каждой пары программой needle при параметрах по умолчанию. В графе DE в UniProt определили полные названия белков (см. предыдущие практикумы). Для получения выравнивания использовали команду:
needle sw:id sw:id needle.needle -auto
Результаты можно увидеть в таблице 1.

Пояснение к таблице: словом Identity обозначается доля полностью одинаковых аминокислот в выравнивании, а Similarity - доля похожих по физико-химическим свойствам аминокислот. Иначе говоря, тех замен, у которых в матрице Blossum стоят положительные значения. Словом gap обозначается единичный разрыв последовательности длиной 1, а indel (insertion/deletion) - единичный разрыв любой длины.

Таблица 1. Глобальное выравнивание алгоритмом Нидлмана-Вунша

Protein Name ID 1 ID 2 Score % Identity % Similarity Gaps Indels
Glycogen phosphorylase
(EC 2.4.1.1) (файл)
PHSG_ECOLI PHSG_BACSU 1747.0 43.1% 61.4% 33 9
Cardiolipin synthase B
(CL synthase) (EC 2.7.8.-) (файл)
CLSB_ECOLI CLSB_BACSU 316.5 22.6% 36.6% 117 14
60 kDa chaperonin
(GroEL protein) (Protein Cpn60)
(Stress protein H5) (файл)
CH60_ECOLI CH60_BACSU 1694.5 61.5% 77.3% 8 5

Локальное парное выравнивание гомологичных белков

Чтобы посчитать процент покрытия локальным выравниванием для каждой последовательности, мы определили длину участка, попавшего в выравнивание (по координатам начала и конца) и разделили эту длину на полную длину последовательности. Для получения выравнивания использовали команду:
water sw:id sw:id water.water -auto

Таблица 2. Локальное выравнивание алгоритмом Смита-Ватермана

Protein Name ID 1 ID 2 Score % Identity % Similarity Gaps Indels Coverage 1 Coverage 2
Glycogen phosphorylase
(EC 2.4.1.1) (файл)
PHSG_ECOLI PHSG_BACSU 1753.5 44.1% 62.8% 23 6 98,9% 98,0%
Cardiolipin synthase B
(CL synthase) (EC 2.7.8.-) (файл)
CLSB_ECOLI CLSB_BACSU 332.5 27.5% 45.6% 26 7 96,5% 95,3%
60 kDa chaperonin
(GroEL protein) (Protein Cpn60)
(Stress protein H5) (файл)
CH60_ECOLI CH60_BACSU 1695.5 61.7% 77.6% 7 4 99,5% 98,9%

Отметим ключевую особенность: при анализе гомологичных последовательностей, глобальные выравнивания не сильно отличаются от локального по Score, Identity или Similarity. При этом, локальное выравнивание гомологичных последовательностей дает еще и хорошее покрытие. Отсутствие разницы между needle и water неудивительно, ведь алгоритмы схожи и используют одну и ту же матрицу замен. Однако, локальное выравнивание выдает чуть более высокие значения схожести последовательностей.

Результат применения программ выравнивания к неродственным белкам

В этом задании мы должны были сравнить негомологичные белки. Я решил заодно и проверить, являются ли гомологами белки из фотосистемы II растений и реакционный центр фотосинтеза пурпурных бактерий, потому что из биохимии фотосинтеза этих организмов становится ясно, что именно ферменты Q-цикла от пурпурных бактерий, видимо с помощью горизонтального переноса, достались цианобактериям. Для этого мы взяли белки Reaction center protein L chain из типовой пурпурной бактерии Rhodopseudomonas palustris и белок Photosystem II CP43 reaction center protein из модельного растения Arabidopsis thaliana

Таблица 3. Выравнивание некоторых квазислучайных последовательностей

Тип выравнивания ID 1 ID 2 Score % Identity % Similarity Gaps Indels Coverage 1 Coverage 2
Глобальное (файл) RCEL_RHOPA PSBC_ARATH 49.0 12.1% 20.0% 312 20 - -
Локальное (файл) RCEL_RHOPA PSBC_ARATH 62.5 21.3% 31.6% 106 17 68,8% 90,1%

Бактерии и растения разошлись эволюционно очень далеко, поэтому неудивительно низкое сходство. Хотя, значение сходства в 30% при локальном выравнивании может говорить о какой-то эволюционной связи этих двух белков.

Множественное выравнивание белков и импорт в Jalview

В этом задании нужно было выполнить множественное выравнивание гомологов из первой части. Мы взяли гликоген-фосфорилазу. В UniProt нашлось всего 15 белков, чему я очень удивлен, ведь у кого только не должно быть гликоген-фосфорилазы. Из них мы выбрали 7 для дальнейшего анализа:
PHSG_ECOLI - Escherichia coli - Гамма-протеобактерии
PHSG_BACSU - Bacillus subtilis - Фирмикуты
PHSG_YEAST - Saccharomyces cerevisiae - Аскомицеты
PHSG_MYCTU - Mycobacterium tuberculosis - Актинобактерии
PHSG_AQUAE - Aquifex aeolicus - Aquificae (термофильная бактерии)
PHSG_SYNY3 - Synechocystis sp. - Цианобактерии
PHSG_HAEIN - Haemophilus influenzae - Гамма-протеобактерии

Мы записали идентификаторы в текстовый файл sw.txt, затем с помощью команды
seqret @sw.txt sw.fasta
получили файл с последовательностями белков. После этого мы запустили алгоритм множественного выравнивания Muscle командой
muscle -in sw.fasta -out alignment.fasta
Затем мы импортировали выравнивание в графический интерфейс Jalview и покрасили по степени идентичности. Итоговый файл выравнивания можно посмотреть тут

alignment

Рис. 1. Полученное выравнивание в Jalview. Кликните на изображение, чтобы улучшить качество

Также мы проверили выравнивание на адекватность построением на его основе неукорененного филогенетического дерева генов методом Neighbor-joining, доступным в самом интерфейсе программы. Это не самый лучший метод, но поскольку мы рассматриваем гомологичные белки, в некотором приближении этим можно пренебречь.

Рис. 2. Дерево Neighbor-joining

Факт того, что дрожжи (единственные здесь эукариоты) были вынесены в отдельную базальную кладу, а гамма-протеобактерии оказались вместе, говорит о том, что выравнивание можно считать хорошим. Также об этом свидетельствует совпадение многих не коротких участков, как например на рисунке 1.

Выравнивание своего белка с его гомологом

В этой части мы решили выровнять белок-герой из предыдущих практикумов с его гомологом. Не знаю зачем я уже 100 раз просто делаю выравнивания. Для этого мы нашли с помощью BLAST какого-нибудь родственника из Swiss-Prot. Им оказался еще один псевдоазурин из клубеньковой бактерии Rhizobium leguminosarum

Таблица 4. Выравнивание белка псевдоазурина с его гомологом

Тип выравнивания ID 1 ID 2 Score % Identity % Similarity Gaps Indels Coverage 1 Coverage 2
Глобальное (файл) AZUP_ACHCY AZUP_RHILV 453.0 57.6% 67.1% 12 2 - -
Локальное (файл) AZUP_ACHCY AZUP_RHILV 460.0 63.6% 74.1% 1 1 98,6% 99,3%

Почти 100% покрытие и высокая степень идентичности говорит нам о том, что скорее всего эти белки гомологичны, причем поскольку они из разных организмов, это - ортологи. Значит, связывающий медь псевдоазурин появился давно и возможно как-то связан с азотфиксацией.

Параметры программ needle и water

Ранее мы проводили выравнивание на настройках по умолчанию, поэтому стало интересно, какие параметры с нас спросят, если убрать автоматическое заполнение. Оба алгоритма запросили Gap opening penalty (штраф за открытие gap, по умолчанию 10.0) и Gap extension penalty (штраф за продолжение gap, по умолчанию 0.5). Штрафы за соответствие и за несоответствие учтены и без нас с помощью матрицы Blossum.