Я скачала из Uniprot два списка идентификаторов (ID) записей белков с помощью расширенного (advanced) поиска, поставив для него такие настройки: Reviewed: Yes AND Taxonomy [OC]:Escherichia coli (strain K12) (E. coli) [83333] (то же самое для сенной палочки, соответственно). Получившиеся поисковые запросы: для Escherichia coli (strain K12) - (organism_id:83333) AND (reviewed:true) и для Bacillus subtilis (strain 168) - (organism_id:224308) AND (reviewed:true).
Далее я нажала кнопку на главной странице "Download", выбрала Download all, Format: Excel, Compressed: No и убрала колонку reviewed, так как белки и так все аннотированы. Следующим шагом, я открыла скачанные списки в Гугл Таблицах и сочетанием клавиш ctrl + C, ctrl + F, ctrl + V нашла три пары белков с одинаковыми мнемониками. Путём работы в командной строке с программой needle и написанным ранее кодом на python была получена следующая таблица с характеристиками глобального парного выравнивания трёх пар белков:
| Protein Name | ID 1 | ID 2 | Score | % Identity | % Similarity | Gaps | Indels |
|---|---|---|---|---|---|---|---|
| 6-phosphogluconate dehydrogenase | 6PGD_ECOLI | 6PGD_BACSU | 1718 | 70.0% | 83.4% | 3 | 3 |
| Sulfur carrier protein ThiS | THIS_ECOLI | THIS_BACSU | 42 | 20.9% | 44.8% | 2 | 2 |
| Carbamoyl phosphate synthase large chain (разночтение! Для BACSU: Carbamoyl phosphate synthase pyrimidine-specific large chain) |
CARB_ECOLI | CARB_BACSU | 2644.5 | 49.6% | 69.0% | 20 | 11 |
| Protein Name | ID 1 | ID2 | Score | % Identity | % Similarity | Gaps | Indels | Coverage 1 | Coverage 2 |
|---|---|---|---|---|---|---|---|---|---|
| 6-phosphogluconate dehydrogenase | 6PGD_ECOLI | 6PGD_BACSU | 1719 | 70.1% | 83.6% | 3 | 3 | 99.8% | 99.8% |
| Sulfur carrier protein ThiS | THIS_ECOLI | THIS_BACSU | 45 | 22.0% | 48.0% | 0 | 0 | 74.2% | 74.2% |
| Carbamoyl phosphate synthase large chain | CARB_ECOLI | CARB_BACSU | 2644.5 | 49.8% | 69.3% | 19 | 10 | 99.4% | 99.5% |
Судя по имеющимся данным, можно с уверенностью сказать, что белки гомологичны по всей длине. У нас достаточно высокий процент идентичности (70.0%) и сходства (83.4%), большой вес выравнивания (1718) и маленькое количество гэпов. Однако все гэпы являются разными инделями, но, по моему мнению, это скорее говорит о локальной делеции и утрате аминокислотных остатков, чем об отсутсвии голомогии на отдельных участках. Локальному выравниванию удалось совсем немного увеличить вес, Identity и Similarity выравнивания, при этом с почти полным покрытием одной последовательности другой последовательностью, что в данном случае лишь подтвердило нашу теорию о гомологии белков по всей длине. Я бы не стала утверждать о большей информативности локального выравния над глобальным и наоборот, однако скажу, что они оба достаточно информативны.
Несмотря на почти идентичную длину последоватеностей (1073 и 1071 а.о.) и вследствии маленькое чисто гэпов (2), вес выравнивания, процент идентичности и сходства низкий. Поэтому с уверенностью можно сказать, что белки не гомологичны по всей длине. Однако насчет гомологии на участке стоит подумать, обратившись к локальному выравниванию. Локальное выравнивание поймало участок с 17 по 66 а.о. в обеих последовательностях, идентичность и схожесть повысились не так сильно. Я считаю, что эти белки имеют похожие функциональные участки, тем более, что их функции совпадают (судя по имени). Однако гомология - это общность происхождения, и в таком случае нельзя утверждать о какой-либо гомологии на этом участке с уверенностью. Чтобы убедиться в своих выводах, я бы рекомендовала сравнить 3D структуры белков и сделать функциональное выравнивание.
Касаемо информативности локального выравнивания по сравнению с глобальным - возможно, в данной паре локальное выравнивание даже чуть более информативно. Оно сразу дает возможность увидеть отсутсвие гомологии по всей длине. Локальное выравнивание демострирует самый похожий участок из всей длины последовательностей, и на этом участке мы видим низкую идентичность. Поэтому нам не приходиться гадать по глобальному выравниванию о наличии участков с высокой гомологией на последовательностях с остальными низкоконсервативными участками, мы сразу можем отринуть этот вариант с помощью локального выравнивания.
В третьей паре белков можно так же сказать о гомологии по всей длине. Вес выравнивания очень большой (2644.5) несмотря на то, что последовательности примерно в полтора раза длиннее последовательностей из первой пары, их вес почти на тысячу единиц больше, а так же достаточно мало гэпов (20 гэпов это всего 1.8% от всех а.о.) что, безусловно, говорит о гомологии. Процент идентичности и сходства так же достаточно высок - 49.6% и 69.0%. Но лучше обратиться к локальному выравниванию, чтобы исключить возможную гомологию лишь на участках, а не по всей длине. В локальном выравнивании мы видим, что процент покрытия очень высок, а вес, Identity и Similarity увеличились не так значительно - такая ситуация часто говорит так же о гомологии по всей длине. Можно предположить, что не особо впечатляющие проценты идентичности и сходства обусловлены, например, наличием менее консервативных участков, которые не особо влияют на функции белка, а следовательно, изменения в которых чаще оставались незамечеными в процессе эволюции.
В этом случае локальное выравнивание дает нам возможность решить между гомологией по всей длине и лишь на отдельных участках, что подтверждает его информативность.
| тип выравнивания | ID 1 | ID2 | Score | % Identity | % Similarity | Gaps | Indels | Coverage 1 | Coverage 2 |
|---|---|---|---|---|---|---|---|---|---|
| глобальное (needle) | FTSQ_ECOLI | THIG_BACSU | 23.5 | 15.9% | 29.5% | 146 (43.1%) | 18 | - | - |
| локальное (water) | FTSQ_ECOLI | THIG_BACSU | 35.5 | 22.2% | 42.9% | 28 (22.2%) | 7 | 36.2% | 48.0% |
По полученным данным можно смело сказать, что никакой гомологии не наблюдается. Выбранные случайным образом белки оказались отличными по длине почти в два раза. Если предположить между ними какую-то гомологию, то вряд ли можно представить как один из них произошёл от общего предка и потерял от него половину своего набора а.о. Процент идентичности и сходства так же небольшой, функции у этих белков разные, а вес выравнивания совсем уж маленький. И так как нет ничего, что могло бы указать нам на гомологию этих белков или сходство их функций, то оба выравнивания являются одинаково бессмысленными.
Я выбрала для множественного выравнивания мнемонику CARB. Рекомендованное полное имя для белка с данной мнемоникой из штамма K12 кишечной палочки - Carbamoyl phosphate synthase large chain. По запросу (id:CARB_*) в UniProtKB нашлось 253 белка, из них 249 аннотированы. Чтобы сильнее сузить область поиска, я рассматривала только белки прокариот. Итоговый поисковой запрос получился следующим: (id:CARB_*) AND (reviewed:true) AND (taxonomy_id:2). Среди 211 результатов я выбрала 5 белков со следующими ID - CARB_PSEAE, CARB_MYCSJ, CARB_KINRD, CARB_CLOBL, CARB_AGARV. Белки выбирались по организму (те, что с интересными и не слишком длинными названиями) и длине (чтобы случайно не взять в выравнивание огрызок белка).
На kodomo я создала отдельный файл txt со списком идентификаторов записей в Swiss-Prot. Назвала его CARB.txt, и его содержимое выглядит так:
sw:carb_bacsu sw:carb_ecoli sw:carb_pseae sw:carb_mycsj sw:carb_kinrd sw:carb_clobl sw:carb_agarv
Далее я поменяла формат этого файла командой:
seqret @CARB.txt CARB.fasta
Следующим шагом я запустила программу множественного выравнивания muscle:
muscle -align CARB.fasta -output CARB_alignment.fasta
Открыв множественное выравнивание в программе Jalview и покрасив выравнивание по консервативности (Colour → By conservation), можно сказать, что все белки достаточно хорошо выравнялись. Можно заметить, что более консервативные участки располагаются в начале последовательностей. Например, колонки с 48 по 57ую образуют идеальный достоверный блок, есть консервативный участок с 306 по 321 колонку (тоже образуют достоверный блок). Встречающиеся индели так же часто совпадают у 5-6 белков из 7, например, подобное можно видеть в колонках с 902 по 909. Я обратила внимание, что чаще всего без инделей в подобных местах бывают последовательности CARB_MYCSJ и CARB_KINRD (интересно, с чем это может быть связано). Это так же может свидетельствовать о гомологии белков. В целом, можно говорить о гомологии всех семи белков, однако у последовательностей разные негомологичные окончания.