ПРАКТИКУМ 9
1. Глобальное парное выравнивание гомологичных белков
Для скачивания списков идентификаторов (bacillus_subtilis.txt и escherichia_coli.txt) были использованы запросы с поиском по полю OG (поиск *_ECOLI в поле ID в моем случае занял бы слишком много времени):
reviewed:yes AND organism:"Escherichia coli (strain K12) [83333]"
reviewed:yes AND organism:"Bacillus subtilis (strain 168) [224308]"
Полученные списки представляют собой текстовые таблицы (разделитель - tab) с идентификаторами во втором столбце, начиная с второй строки. Для создания списка общих мнемоник функции я использовал конвеер:
cut -f 2 bacillus_subtilis.txt escherichia_coli.txt | tail -n +2 | cut -f 1 -d '_' | sort | uniq -d > common_mnems.txt
Для данного задания я выбрал мнемоники DNAA, GYRA и SRP54.
Глобальные парные выравнивания были построены с помощью команд:
needle sw:dnaa_ecoli sw:dnaa_bacsu dnaa.needle -auto
needle sw:gyra_ecoli sw:gyra_bacsu gyra.needle -auto
needle sw:srp54_ecoli sw:srp54_bacsu srp54.needle -auto
Таблица 1. Характеристики глобального парного выравнивания трёх пар белков
Protein Name | ID 1 | ID 2 | Score | % Identity | % Similarity | Gaps | Indels |
---|---|---|---|---|---|---|---|
Chromosomal replication initiator protein DnaA | DNAA_ECOLI | DNAA_BACSU | 990.0 | 42.3% | 61.9% | 43 | 9 |
DNA gyrase subunit A | GYRA_ECOLI | GYRA_BACSU | 2227.0 | 50.7% | 68.6% | 72 | 7 |
Signal recognition particle protein | SRP54_ECOLI | SRP54_BACSU | 1230.0 | 51.6% | 70.1% | 23 | 3 |
2. Локальное парное выравнивание гомологичных белков
Для тех же 3 пар белков я построил локальные парные выравнивания с помощью программы water:water sw:dnaa_ecoli sw:dnaa_bacsu dnaa.water -auto
water sw:gyra_ecoli sw:gyra_bacsu gyra.water -auto
water sw:srp54_ecoli sw:srp54_bacsu srp54.water -auto
Таблица 2. Характеристики локального парного выравнивания трёх пар белков
Protein Name | ID 1 | ID 2 | Score | % Identity | % Similarity | Gaps | Indels | Coverage 1 | Coverage 2 |
---|---|---|---|---|---|---|---|---|---|
Chromosomal replication initiator protein DnaA | DNAA_ECOLI | DNAA_BACSU | 994.0 | 43.6% | 63.5% | 33 | 7 | 97.2% | 98.4% |
DNA gyrase subunit A | GYRA_ECOLI | GYRA_BACSU | 2228.0 | 52.6% | 71.3% | 38 | 4 | 96.1% | 98.1% |
Signal recognition particle protein | SRP54_ECOLI | SRP54_BACSU | 1205.0 | 54.0% | 73.3% | 8 | 2 | 95.4% | 98.2% |
3. Результат применения программ выравнивания к неродственным белкам
Для выполнения этого задания я решил выбрать белки с ID FUMC_ECOLI и DPO3B_BACSU. Я выровнял их с программ needle и water:
needle sw:fumc_ecoli sw:dpo3b_bacsu random.needle -auto
water sw:fumc_ecoli sw:dpo3b_bacsu random.water -auto
Таблица 3. Характеристики выравниваний негомологичных белков
Program | Score | % Identity | % Similarity | Gaps | Indels | Coverage 1 | Coverage 2 |
---|---|---|---|---|---|---|---|
needle | 41.0 | 13.0% | 22.2% | 307 | 20 | - | - |
water | 54.0 | 21.4% | 38.0% | 48 | 8 | 31.9% | 49.5% |
Ожидаемо, вес полученных выравниваний очень мал по сравнению с таковым для пар гомологичных белков. То же можно сказать и про доли совпадающих и сходных букв. В то же время, очень велико количество гэпов и инделей. При этом все упомянутые показатели, в целом, несколько лучше для локального выравнивания, так как для него были выбраны наиболее сходные (скорее всего, по случайным причинам) участки последовательностей, которые оказались достаточно небольшими.
4. Множественное выравнивание белков и импорт в Jalview
Для множественниго выравнивания я выбрал белки с мнемоникой SRP54 (рекомендованное имя SRP54_ECOLI - Signal recognition particle protein). Для поиска белков с такой мнемоникой в базе данных Swiss-Prot я использовал запрос:
mnemonic:srp54_* AND reviewed:yes
Выдача состояла из 96 записей, из которых я решил выбрать 5 записей с ID SRP54_DICDI (белок слизевика Dictyostelium discoideum), SRP54_YEAST (пекарские дрожжи Saccharomyces cerevisiae), SRP54_GEOCY (обыкновенная губка Geodia cydonium), SRP54_SULIA (архея Sulfolobus islandicus) и SRP54_HUMAN. Последовательности я получил непосредственно в Jalview по их идентификаторам (программа же нашла их в Uniprot). Выравнивание было построено по алгоритму Muscle с параметрами по умолчанию ("with Defaults"). По данной ссылке можно скачать файл с проектом Jalview.
Судя по числу и длину сходных участков, все эти белки действительно гомологичны. В целом, все последовательности выравнялись достаточно хорошо. По полученном выравниванию можно явно выделить консервативные участки белка, особенно в начале и в конце последовательности (колонки 1-14, 32-50, 337-370, 397-405, 418-439). В середине они расположены более близко друг к другу, и вручную точно определить границы между ними достаточно сложно. Наибольшая вариативность наблюдается в области C-конца белка, где можно видеть очень длинные индели почти во всех последовательностях. Во многом, именно этот участок определяет разницу в длине исследуемых белков.