Описание каталитического центра

1. Подсчет инделей

Скрипт, написанный на языке Python раcположен в папке /home/students/y23/salimakari/term2/indels.

2. Глобальное парное выранивание

С помощью команд

infoseq 'sw:*_ECOLI' -only -name -nohead -out ECOLI.txt
infoseq 'sw:*_BACSU' -only -name -nohead -out BACSU.txt

я создала два файла, содержащих только идентификаторы (ID) записей из базы данных swiss-prot.

Далее с помощью команды

cat BA.txt EC.txt | rev | tr -d ' ' | cut -c 6- | rev | sort | uniq -c | sort -r | grep '2' | less

я посмотрела какие мнемоники функции встречаются у обеих бактерий. Далее из них я выбрала случайные три и попарно выровняла их с помощью команд:

needle sw:ASPA_ecoli sw:ASPA_bacsu ASPA_.needle -auto
needle sw:SAPB_ecoli sw:SAPB_bacsu SAPB_.needle -auto
needle sw:DBPA_ecoli sw:DBPA_bacsu DBPA_.needle -auto

Результаты представлены в таблице:

Protein Name ID 1 ID 2 Score % Identity % Similarity Gaps Indels
Aspartate ammonia-lyase ASPA_ECOLI ASPA_BACSU 1146.5 47.0 66.9 9 4
Putrescine export system permease protein SapB SAPB_ECOLI SAPB_BACSU 22.0 7.9 12.8 335 10
ATP-dependent RNA helicase DbpA DBPA_ECOLI DBPA_BACSU 738.0 35.7 52.5 28 6

3. Локальное парное выравнивание гомологичных белков

Те же пары последовательностей были выровнены с помощью следующих команд:

water sw:ASPA_ecoli sw:ASPA_bacsu ASPA_.water -auto
water sw:SAPB_ecoli sw:SAPB_bacsu SAPB_.water -auto
water sw:DBPA_ecoli sw:DBPA_bacsu DBPA_.water -auto

Результаты данного выравнивания представлены в таблице:

Protein Name ID 1 ID 2 Score % Identity % Similarity Gaps Indels Coverage 1 Coverage 2
Aspartate ammonia-lyase ASPA_ECOLI ASPA_BACSU 1149.5 47.7 68.1 3 2 98.33 98.32
Putrescine export system permease protein SapB SAPB_ECOLI SAPB_BACSU 38.5 27.4 44.0 17 4 21.81 34.91
ATP-dependent RNA helicase DbpA DBPA_ECOLI DBPA_BACSU 745.0 36.7 53.8 26 4 96.06 96.24

4. Результат применения программ выравнивания к неродственным белкам

Cлучайным образом я выбрала по одной последовательности у каждого организма. Причем, получилось так, что кодируемые структуры действительно получились совсем разные. Первый - карбоксипептидаза DacA кишечной палочки, второй - цистеин-синтаза сенной палочки.

Далее эти последовтельности так же выровнены с помощью needle и water.

Результаты глобального парного выравнивания:

ID 1 ID 2 Name 1 Name 2 Score % Identity % Similarity Gaps Indels
DACA_ECOLI CYSM_BACSU D-alanyl-D-alanine carboxypeptidase DacA Probable cysteine synthase 23.5 8.6 13.5 400 16

Результаты локального парного выравнивания:

ID 1 ID 2 Name 1 Name 2 Score % Identity % Similarity Gaps Indels Coverage 1 Coverage 2
DACA_ECOLI CYSM_BACSU D-alanyl-D-alanine carboxypeptidase DacA Probable cysteine synthase 23.5 22.5 34.0 65 12 46.15 53.70

Как и ожидалось, score обоих выравниваний довольно мал, вследсвие отсутствия какого либо функционального сходства кодираемых структур. Однако с другой стороны, нетрудно заметить, что при локальном выравнении similarity все же выше, что говорит о возможной локальной схожести. Я предполагаю, что это может быть связано с субстратами, с которыми работают данныые ферменты. Так, оба фермента в какой-то степени связывают аминоксилоты или их отдельные функциональные группы. Для этого, безусловно, необходим спецефический набор химических структур, который у данных белков может быть в какой-то степени схож, что и обнаруживается на уровне последовательностей.

5. Множественное выравнивание белков и импорт в Jalview

Для множественного выравнивания я решила выбрать последовательности с мнемоникой 'ASPA'. Данные последовтельности кодируют ферменты под названием Aspartate ammonia-lyase. При поиске в swiss-prot последовтельностей с такой мнемоникой найдено 32 записи, причем все из них описывают структуры именно бактериального происхождениях. Из них, помимо уже описанных выше, я выбрала последовтельности SYNS9 (Synechococcus sp.), TRIEI (Trichodesmium erythraeum), SHIFL (Shigella flexner), HELPY (Helicobacter pylori), SERMA (Serratia marcescens).

Выравнивание проводилось на kodomo программой muscle. Для этого предварительно был создан файл со строками формата sw:aspa_organizm, где вместо organizm подставлены указания на оранизм в необхлдимом формате. Далее с помощью последовтельного выполнения команд, приведенных ниже, был получен файл выравнивания в fasta-формате.

seqret @aspa.txt aspa.fasta
muscle -in aspa.fasta -out aspa_alignment.fasta

Далее, полученный файл был импортирован в Jalview. Результат обработки. С помощью Color -> Percentage identity, выравнивание было окрашено по идентичности. Стало заметно, что все последовательности гомологичны друг другу и глобально в струтуре присутсвует несколько довольно консервативных участков, которые по моему предположению относятся к важным структурным единицам для выполнения функции фермента, например для правильного позиционирования субстрата. Такое наблюдается в участках: 8-38, 49-83, 96-172, 178-198, 206-294, 342-358. Нетрудно заметить, что есть два наиболее протяженных участка, которые вероятно формируют два основных домена, консервативных для всех последовтельностей. Однако, наблюдается, что для двух последовтельностей (SYNS9, TRIEI) степень идентичности с осталььными последовательностями сравнительно меньше. Данные последовательности, во-первых, меньше по длинне, во-вторых, даже в консервативных участках схожесть у них с прочими заметно меньше. Вероятно это связано с тем, что именно эти две последовательности принадлежат цианобактериям.