Селифонов (slfn) учебный сайт; Обо мне

ПРАКТИКУМ 9

1. Глобальное парное выравнивание гомологичных белков

Для скачивания списков идентификаторов (bacillus_subtilis.txt и escherichia_coli.txt) были использованы запросы с поиском по полю OG (поиск *_ECOLI в поле ID в моем случае занял бы слишком много времени):

reviewed:yes AND organism:"Escherichia coli (strain K12) [83333]"

reviewed:yes AND organism:"Bacillus subtilis (strain 168) [224308]"

Полученные списки представляют собой текстовые таблицы (разделитель - tab) с идентификаторами во втором столбце, начиная с второй строки. Для создания списка общих мнемоник функции я использовал конвеер:

cut -f 2 bacillus_subtilis.txt escherichia_coli.txt | tail -n +2 | cut -f 1 -d '_' | sort | uniq -d > common_mnems.txt

Для данного задания я выбрал мнемоники DNAA, GYRA и SRP54.

Глобальные парные выравнивания были построены с помощью команд:

needle sw:dnaa_ecoli sw:dnaa_bacsu dnaa.needle -auto

needle sw:gyra_ecoli sw:gyra_bacsu gyra.needle -auto

needle sw:srp54_ecoli sw:srp54_bacsu srp54.needle -auto

Таблица 1. Характеристики глобального парного выравнивания трёх пар белков

Protein Name ID 1 ID 2 Score % Identity % Similarity Gaps Indels
Chromosomal replication initiator protein DnaA DNAA_ECOLI DNAA_BACSU 990.0 42.3% 61.9% 43 9
DNA gyrase subunit A GYRA_ECOLI GYRA_BACSU 2227.0 50.7% 68.6% 72 7
Signal recognition particle protein SRP54_ECOLI SRP54_BACSU 1230.0 51.6% 70.1% 23 3

2. Локальное парное выравнивание гомологичных белков

Для тех же 3 пар белков я построил локальные парные выравнивания с помощью программы water:

water sw:dnaa_ecoli sw:dnaa_bacsu dnaa.water -auto

water sw:gyra_ecoli sw:gyra_bacsu gyra.water -auto

water sw:srp54_ecoli sw:srp54_bacsu srp54.water -auto

Таблица 2. Характеристики локального парного выравнивания трёх пар белков

Protein Name ID 1 ID 2 Score % Identity % Similarity Gaps Indels Coverage 1 Coverage 2
Chromosomal replication initiator protein DnaA DNAA_ECOLI DNAA_BACSU 994.0 43.6% 63.5% 33 7 97.2% 98.4%
DNA gyrase subunit A GYRA_ECOLI GYRA_BACSU 2228.0 52.6% 71.3% 38 4 96.1% 98.1%
Signal recognition particle protein SRP54_ECOLI SRP54_BACSU 1205.0 54.0% 73.3% 8 2 95.4% 98.2%

3. Результат применения программ выравнивания к неродственным белкам

Для выполнения этого задания я решил выбрать белки с ID FUMC_ECOLI и DPO3B_BACSU. Я выровнял их с программ needle и water:

needle sw:fumc_ecoli sw:dpo3b_bacsu random.needle -auto

water sw:fumc_ecoli sw:dpo3b_bacsu random.water -auto

Таблица 3. Характеристики выравниваний негомологичных белков

Program Score % Identity % Similarity Gaps Indels Coverage 1 Coverage 2
needle 41.0 13.0% 22.2% 307 20 - -
water 54.0 21.4% 38.0% 48 8 31.9% 49.5%

Ожидаемо, вес полученных выравниваний очень мал по сравнению с таковым для пар гомологичных белков. То же можно сказать и про доли совпадающих и сходных букв. В то же время, очень велико количество гэпов и инделей. При этом все упомянутые показатели, в целом, несколько лучше для локального выравнивания, так как для него были выбраны наиболее сходные (скорее всего, по случайным причинам) участки последовательностей, которые оказались достаточно небольшими.

4. Множественное выравнивание белков и импорт в Jalview

Для множественниго выравнивания я выбрал белки с мнемоникой SRP54 (рекомендованное имя SRP54_ECOLI - Signal recognition particle protein). Для поиска белков с такой мнемоникой в базе данных Swiss-Prot я использовал запрос:

mnemonic:srp54_* AND reviewed:yes

Выдача состояла из 96 записей, из которых я решил выбрать 5 записей с ID SRP54_DICDI (белок слизевика Dictyostelium discoideum), SRP54_YEAST (пекарские дрожжи Saccharomyces cerevisiae), SRP54_GEOCY (обыкновенная губка Geodia cydonium), SRP54_SULIA (архея Sulfolobus islandicus) и SRP54_HUMAN. Последовательности я получил непосредственно в Jalview по их идентификаторам (программа же нашла их в Uniprot). Выравнивание было построено по алгоритму Muscle с параметрами по умолчанию ("with Defaults"). По данной ссылке можно скачать файл с проектом Jalview.

Судя по числу и длину сходных участков, все эти белки действительно гомологичны. В целом, все последовательности выравнялись достаточно хорошо. По полученном выравниванию можно явно выделить консервативные участки белка, особенно в начале и в конце последовательности (колонки 1-14, 32-50, 337-370, 397-405, 418-439). В середине они расположены более близко друг к другу, и вручную точно определить границы между ними достаточно сложно. Наибольшая вариативность наблюдается в области C-конца белка, где можно видеть очень длинные индели почти во всех последовательностях. Во многом, именно этот участок определяет разницу в длине исследуемых белков.