PSI-BLAST

При поиске моего белка D-аланил-D-аланин карбоксипептидазы из бактерии Nostoc sp., штамм PCC 7524 (последовательность в формате fasta) в базе данных SwissProt с помощью PSI-BLAST в первой итерации выдается список из 5 находок с E-value большим порогового значения 0,005, а также 11 находок с E-value, превышающим порог. Конечно, последовательностей, которые составляют семейство моего белка, в SwissProt очень мало, однако эти белки имеют высокое сходство, а разница значений E-value между худшей правильной находкой (выше порога) и лучшей неправильной значительна (1e-31 и 2 соответственно). При этом количество и список белков, относящихся к одному семейству, после первой итерации не изменяются, меняются только параметры выравниваний и список неправильных находок с E-value ниже порогового значения. После четвертой итерации изменения прекращаются. Подробная информация о лучших и худших находках в пяти итерациях поиска представлена в таблице 1. Условия поиска представлены по ссылке.
Также я пыталась провести поиск в другой базе данных - RefSeq. С пороговым значением по умолчанию (E-value = 0,005) PSI-BLAST выдает 6225 находок, и работать с таким большим выравниванием для проведения следующих итераций крайне затруднительно. Я пыталась изменить пороговое значение, например, на 1e-40 (таким образом можно отобрать около 500 находок, с которыми уже можно работать), однако это не позволяет найти все белки, принадлежащие семейству моего белка, так как те белки, которые рассматриваются как неправильные находки, имеют то же название и, скорее всего, выполняют те же функции у других близкородственных бактерий, поэтому их также стоит рассматривать в составе этого семейства. Также поиск по RefSeq не позволит стабилизировать список находок после нескольких итераций, поэтому далее в практикуме я работала с находками из базы данных SwissProt.

Таблица 1. Информация о лучших и худших находках при поиске последовательности белка D-аланил-D-аланин карбоксипептидазы в SwissProt с помощью PSI-BLAST для нескольких итераций.
Итерация Находка Организм % идентичных Score E-value
1 лучшая Actinomadura sp. 33 200 8e-56
худшая Escherichia coli 29 130 1e-31
2 лучшая Bacillus subtilis 29 502 1e-172
худшая Dictyostelium discoideum 30 413 3e-137
3 лучшая Bacillus subtilis 29 510 8e-176
худшая Dictyostelium discoideum 30 424 1e-141
4 лучшая Bacillus subtilis 29 511 4e-176
худшая Dictyostelium discoideum 30 425 3e-142

Также я проверила, изменяется ли список найденных белков, если для поиска использовать другую последовательность из данного семейства. Для этого я взяла наименее похожую последовательность белка из слизевика Dictyostelium discoideum (penicillin-sensitive carboxypeptidase A, идентификатор в SwissProt Q86I79.1) и провела с ней поиск в SwissProt с помощью PSI-BLAST с такими же параметрами. Список найденных белков полностью совпадал со списком, полученным при поиске последовательности моего белка, однако выравнивания и значения их параметров отличались. Не могу с уверенностью утверждать, что такие результаты показательны, учитывая небольшое число белков в исследуемом семействе, но теоретически список белков, входящих в состав одного семейства, должен быть одинаковым вне зависимости от того, с какой последовательности из семейства начинался поиск. Условия поиска доступны по ссылке, в таблице 2 представлены некоторые результаты поиска.

Таблица 2. Информация о лучших и худших находках при поиске последовательности белка из Dictyostelium discoideum в SwissProt с помощью PSI-BLAST.
Итерация Находка Организм % идентичных Score E-value
1 лучшая Dictyostelium discoideum 100 1040 0
вторая Actinomadura sp. 26 110 2e-24
худшая Haemophilus influenzae 23 73,9 9e-13
5 лучшая Dictyostelium discoideum 100 622 0
вторая Escherichia coli 22 490 8e-168
худшая Bacillus subtilis 25 459 2e-155

Последовательности найденных белков я сохранила в формате fasta (ссылка на файл) и построила их множественное выравнивание с помощью программы muscle. Для этого я использовала команду muscle -in proteins.fasta -out muscle.fasta. При этом к файлу с последовательностями я добавила и свой белок (его нет в базе данных SwissProt, поэтому PSI-BLAST не мог найти его последовательность). Построенные выравнивания (без моего белка и с моим белком) представлены на рисунках 1а и 1b соотвественно. Список последовательностей с добавленным белком в формате fasta доступен по сслыке. Все выравнивания, представленные далее на странице, также можно посмотреть в программе JalView (сслыка на проект в формате jvp).

Выравнивание muscle без моего белка

Рисунок 1а. Множественное выравнивание, построенное программой muscle по списку последовательностей белков, найденных с помощью PSI-BLAST. Представлено 5 последовательностей, раскраска ClustalX. Выравниание в формате fasta: muscle.fasta.

Выравнивание muscle с моим белком

Рисунок 2b. Множественное выравнивание, построенное программой muscle по списку последовательностей белков, найденных с помощью PSI-BLAST, с добавлением моего белка. Представлено 6 последовательностей, раскраска ClustalX. Выравниание в формате fasta: muscle_plus.fasta.

Также я построила множественные выравнивания тех же последовательностей с помощью программы mafft. Результаты представлены на рисунках 2а и 2b.

Выравнивание mafft без моего белка

Рисунок 2a. Множественное выравнивание, построенное программой mafft по списку последовательностей белков, найденных с помощью PSI-BLAST. Представлено 5 последовательностей, раскраска ClustalX. Выравниание в формате fasta: mafft.fasta.

Выравнивание mafft с моим белком

Рисунок 2b. Множественное выравнивание, построенное программой mafft по списку последовательностей белков, найденных с помощью PSI-BLAST, с добавлением моего белка. Представлено 6 последовательностей, раскраска ClustalX. Выравниание в формате fasta: mafft_plus.fasta.

Затем я сравнила полученные выравнивания (рисунки 1 и 2) друг с другом с помощью программы muscle, которая может построить выравнивание двух выравниваний. На рисунках 3а и 3b представлены результаты сравнения выравниваний без моего белка и с моим белком. Одинаковые в обоих выравниваниях колонки обведены черной рамкой и отмечены в разметке буквой H.

Сравнение выравниваний без моего белка

Рисунок 3a. Сравнение множественных выравниваний, построенных программами muscle и mafft по списку последовательностей белков, найденных с помощью PSI-BLAST. Сверху расположено выравнивание muscle, снизу mafft. Одинаковые колонки в обоих выравниваниях обведены черной рамкой и отмечены символом H. Раскраска ClustalX.

Сравнение выравниваний с моим белком

Рисунок 3b. Сравнение множественных выравниваний, построенных программами muscle и mafft по списку последовательностей белков, найденных с помощью PSI-BLAST, с добавлением моего белка. Сверху расположено выравнивание muscle, снизу mafft. Одинаковые колонки в обоих выравниваниях обведены черной рамкой и отмечены символом H. Раскраска ClustalX.

При сравнении выравниваний можно отметить достаточно большие участки, на которых эти выравнивания полностью совпадают (например, с 73-211 и 372-531 позиции на рисунке 3а, 292-360 и 422-494 позиции на рисунке 3b). Основные различия выравниваний связаны с неодинаковой расстановкой гэпов. В некоторых местах действительно сложно определить, в каком именно месте произошла вставка или делеция. Например, на участках 248-256 и 495-501 (рисунок 3b). При этом в обоих выравниваниях хорошо видны вставки или делеции, произошедшие в отдельных последовательностях. Например, позиции 231-236 и 480-484 (вставка в Bacillus subtilis и Actinomadura sp.) и 73-81, 199-203 и 522-526 (вставка в Dictyostelium discoideum). В целом можно считать, что участки, совпавшие в обоих выравниваниях, представляют правильное выравнивание данных последовательностей.

© Наталия Кашко, 2015