Практикум 9. Выравнивание как отражение эволюции. Программы парного выравнивания. Jalview

2. Глобальное парное выравнивание гомологичных белков

Я скачала из Uniprot два списка идентификаторов (ID) записей белков с помощью расширенного (advanced) поиска, поставив для него такие настройки: Reviewed: Yes AND Taxonomy [OC]:Escherichia coli (strain K12) (E. coli) [83333] (то же самое для сенной палочки, соответственно). Получившиеся поисковые запросы: для Escherichia coli (strain K12) - (organism_id:83333) AND (reviewed:true) и для Bacillus subtilis (strain 168) - (organism_id:224308) AND (reviewed:true).

Далее я нажала кнопку на главной странице "Download", выбрала Download all, Format: Excel, Compressed: No и убрала колонку reviewed, так как белки и так все аннотированы. Следующим шагом, я открыла скачанные списки в Гугл Таблицах и сочетанием клавиш ctrl + C, ctrl + F, ctrl + V нашла три пары белков с одинаковыми мнемониками. Путём работы в командной строке с программой needle и написанным ранее кодом на python была получена следующая таблица с характеристиками глобального парного выравнивания трёх пар белков:

Таблица 1. Характеристики глобального парного выравнивания трёх пар белков
Protein Name ID 1 ID 2 Score % Identity % Similarity Gaps Indels
6-phosphogluconate dehydrogenase 6PGD_ECOLI 6PGD_BACSU 1718 70.0% 83.4% 3 3
Sulfur carrier protein ThiS THIS_ECOLI THIS_BACSU 42 20.9% 44.8% 2 2
Carbamoyl phosphate synthase large chain
(разночтение! Для BACSU: Carbamoyl phosphate synthase pyrimidine-specific large chain)
CARB_ECOLI CARB_BACSU 2644.5 49.6% 69.0% 20 11

3. Локальное парное выравнивание гомологичных белков

Таблица 2. Характеристики локального парного выравнивания трёх пар белков
Protein Name ID 1 ID2 Score % Identity % Similarity Gaps Indels Coverage 1 Coverage 2
6-phosphogluconate dehydrogenase 6PGD_ECOLI 6PGD_BACSU 1719 70.1% 83.6% 3 3 99.8% 99.8%
Sulfur carrier protein ThiS THIS_ECOLI THIS_BACSU 45 22.0% 48.0% 0 0 74.2% 74.2%
Carbamoyl phosphate synthase large chain CARB_ECOLI CARB_BACSU 2644.5 49.8% 69.3% 19 10 99.4% 99.5%

4. Комментарии к выравниваниям

4.1. 6-phosphogluconate dehydrogenase (6PGD)

Судя по имеющимся данным, можно с уверенностью сказать, что белки гомологичны по всей длине. У нас достаточно высокий процент идентичности (70.0%) и сходства (83.4%), большой вес выравнивания (1718) и маленькое количество гэпов. Однако все гэпы являются разными инделями, но, по моему мнению, это скорее говорит о локальной делеции и утрате аминокислотных остатков, чем об отсутсвии голомогии на отдельных участках. Локальному выравниванию удалось совсем немного увеличить вес, Identity и Similarity выравнивания, при этом с почти полным покрытием одной последовательности другой последовательностью, что в данном случае лишь подтвердило нашу теорию о гомологии белков по всей длине. Я бы не стала утверждать о большей информативности локального выравния над глобальным и наоборот, однако скажу, что они оба достаточно информативны.

4.2. Sulfur carrier protein ThiS (THIS)

Несмотря на почти идентичную длину последоватеностей (1073 и 1071 а.о.) и вследствии маленькое чисто гэпов (2), вес выравнивания, процент идентичности и сходства низкий. Поэтому с уверенностью можно сказать, что белки не гомологичны по всей длине. Однако насчет гомологии на участке стоит подумать, обратившись к локальному выравниванию. Локальное выравнивание поймало участок с 17 по 66 а.о. в обеих последовательностях, идентичность и схожесть повысились не так сильно. Я считаю, что эти белки имеют похожие функциональные участки, тем более, что их функции совпадают (судя по имени). Однако гомология - это общность происхождения, и в таком случае нельзя утверждать о какой-либо гомологии на этом участке с уверенностью. Чтобы убедиться в своих выводах, я бы рекомендовала сравнить 3D структуры белков и сделать функциональное выравнивание.

Касаемо информативности локального выравнивания по сравнению с глобальным - возможно, в данной паре локальное выравнивание даже чуть более информативно. Оно сразу дает возможность увидеть отсутсвие гомологии по всей длине. Локальное выравнивание демострирует самый похожий участок из всей длины последовательностей, и на этом участке мы видим низкую идентичность. Поэтому нам не приходиться гадать по глобальному выравниванию о наличии участков с высокой гомологией на последовательностях с остальными низкоконсервативными участками, мы сразу можем отринуть этот вариант с помощью локального выравнивания.

4.3. Carbamoyl phosphate synthase large chain (CARB)

В третьей паре белков можно так же сказать о гомологии по всей длине. Вес выравнивания очень большой (2644.5) несмотря на то, что последовательности примерно в полтора раза длиннее последовательностей из первой пары, их вес почти на тысячу единиц больше, а так же достаточно мало гэпов (20 гэпов это всего 1.8% от всех а.о.) что, безусловно, говорит о гомологии. Процент идентичности и сходства так же достаточно высок - 49.6% и 69.0%. Но лучше обратиться к локальному выравниванию, чтобы исключить возможную гомологию лишь на участках, а не по всей длине. В локальном выравнивании мы видим, что процент покрытия очень высок, а вес, Identity и Similarity увеличились не так значительно - такая ситуация часто говорит так же о гомологии по всей длине. Можно предположить, что не особо впечатляющие проценты идентичности и сходства обусловлены, например, наличием менее консервативных участков, которые не особо влияют на функции белка, а следовательно, изменения в которых чаще оставались незамечеными в процессе эволюции.

В этом случае локальное выравнивание дает нам возможность решить между гомологией по всей длине и лишь на отдельных участках, что подтверждает его информативность.

5. Результат применения программ выравнивания к неродственным белкам

Таблица 3. Характеристики глобального и локального выравнивания неродственной пары белков
тип выравнивания ID 1 ID2 Score % Identity % Similarity Gaps Indels Coverage 1 Coverage 2
глобальное (needle) FTSQ_ECOLI THIG_BACSU 23.5 15.9% 29.5% 146 (43.1%) 18 - -
локальное (water) FTSQ_ECOLI THIG_BACSU 35.5 22.2% 42.9% 28 (22.2%) 7 36.2% 48.0%

По полученным данным можно смело сказать, что никакой гомологии не наблюдается. Выбранные случайным образом белки оказались отличными по длине почти в два раза. Если предположить между ними какую-то гомологию, то вряд ли можно представить как один из них произошёл от общего предка и потерял от него половину своего набора а.о. Процент идентичности и сходства так же небольшой, функции у этих белков разные, а вес выравнивания совсем уж маленький. И так как нет ничего, что могло бы указать нам на гомологию этих белков или сходство их функций, то оба выравнивания являются одинаково бессмысленными.

6. Множественное выравнивание белков и импорт в Jalview

6.1. Подготовка к выравниванию

Я выбрала для множественного выравнивания мнемонику CARB. Рекомендованное полное имя для белка с данной мнемоникой из штамма K12 кишечной палочки - Carbamoyl phosphate synthase large chain. По запросу (id:CARB_*) в UniProtKB нашлось 253 белка, из них 249 аннотированы. Чтобы сильнее сузить область поиска, я рассматривала только белки прокариот. Итоговый поисковой запрос получился следующим: (id:CARB_*) AND (reviewed:true) AND (taxonomy_id:2). Среди 211 результатов я выбрала 5 белков со следующими ID - CARB_PSEAE, CARB_MYCSJ, CARB_KINRD, CARB_CLOBL, CARB_AGARV. Белки выбирались по организму (те, что с интересными и не слишком длинными названиями) и длине (чтобы случайно не взять в выравнивание огрызок белка).

6.2. Как делалось выравнивание

На kodomo я создала отдельный файл txt со списком идентификаторов записей в Swiss-Prot. Назвала его CARB.txt, и его содержимое выглядит так:

sw:carb_bacsu
sw:carb_ecoli
sw:carb_pseae
sw:carb_mycsj
sw:carb_kinrd
sw:carb_clobl
sw:carb_agarv

Далее я поменяла формат этого файла командой:

seqret @CARB.txt CARB.fasta

Следующим шагом я запустила программу множественного выравнивания muscle:

muscle -align CARB.fasta -output CARB_alignment.fasta

6.3. Гиперссылка на файл с проектом в Jalview

Скачать файл CARB_alignment(J).jvp

6.4. Комментарии к выравниванию

Открыв множественное выравнивание в программе Jalview и покрасив выравнивание по консервативности (Colour → By conservation), можно сказать, что все белки достаточно хорошо выравнялись. Можно заметить, что более консервативные участки располагаются в начале последовательностей. Например, колонки с 48 по 57ую образуют идеальный достоверный блок, есть консервативный участок с 306 по 321 колонку (тоже образуют достоверный блок). Встречающиеся индели так же часто совпадают у 5-6 белков из 7, например, подобное можно видеть в колонках с 902 по 909. Я обратила внимание, что чаще всего без инделей в подобных местах бывают последовательности CARB_MYCSJ и CARB_KINRD (интересно, с чем это может быть связано). Это так же может свидетельствовать о гомологии белков. В целом, можно говорить о гомологии всех семи белков, однако у последовательностей разные негомологичные окончания.