|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
При поиске моего белка D-аланил-D-аланин карбоксипептидазы из бактерии Nostoc sp., штамм PCC 7524 (последовательность в формате
fasta) в базе данных SwissProt с помощью PSI-BLAST в первой итерации выдается список из 5 находок
с E-value большим порогового значения 0,005, а также 11 находок с E-value, превышающим порог. Конечно, последовательностей, которые составляют
семейство моего белка, в SwissProt очень мало, однако эти белки имеют высокое сходство, а разница значений E-value между худшей правильной находкой
(выше порога) и лучшей неправильной значительна (1e-31 и 2 соответственно). При этом количество и список белков, относящихся к одному семейству, после
первой итерации не изменяются, меняются только параметры выравниваний и список неправильных находок с E-value ниже порогового значения. После четвертой
итерации изменения прекращаются. Подробная информация о лучших и худших находках в пяти итерациях поиска представлена в таблице 1. Условия поиска представлены
по ссылке.
Также я проверила, изменяется ли список найденных белков, если для поиска использовать другую последовательность из данного семейства. Для этого я взяла наименее похожую последовательность белка из слизевика Dictyostelium discoideum (penicillin-sensitive carboxypeptidase A, идентификатор в SwissProt Q86I79.1) и провела с ней поиск в SwissProt с помощью PSI-BLAST с такими же параметрами. Список найденных белков полностью совпадал со списком, полученным при поиске последовательности моего белка, однако выравнивания и значения их параметров отличались. Не могу с уверенностью утверждать, что такие результаты показательны, учитывая небольшое число белков в исследуемом семействе, но теоретически список белков, входящих в состав одного семейства, должен быть одинаковым вне зависимости от того, с какой последовательности из семейства начинался поиск. Условия поиска доступны по ссылке, в таблице 2 представлены некоторые результаты поиска.
Последовательности найденных белков я сохранила в формате fasta (ссылка на файл) и построила их множественное выравнивание с помощью программы muscle. Для этого я использовала команду muscle -in proteins.fasta -out muscle.fasta. При этом к файлу с последовательностями я добавила и свой белок (его нет в базе данных SwissProt, поэтому PSI-BLAST не мог найти его последовательность). Построенные выравнивания (без моего белка и с моим белком) представлены на рисунках 1а и 1b соотвественно. Список последовательностей с добавленным белком в формате fasta доступен по сслыке. Все выравнивания, представленные далее на странице, также можно посмотреть в программе JalView (сслыка на проект в формате jvp). ![]() Рисунок 1а. Множественное выравнивание, построенное программой muscle по списку последовательностей белков, найденных с помощью PSI-BLAST. Представлено 5 последовательностей, раскраска ClustalX. Выравниание в формате fasta: muscle.fasta. ![]() Рисунок 2b. Множественное выравнивание, построенное программой muscle по списку последовательностей белков, найденных с помощью PSI-BLAST, с добавлением моего белка. Представлено 6 последовательностей, раскраска ClustalX. Выравниание в формате fasta: muscle_plus.fasta. Также я построила множественные выравнивания тех же последовательностей с помощью программы mafft. Результаты представлены на рисунках 2а и 2b. ![]() Рисунок 2a. Множественное выравнивание, построенное программой mafft по списку последовательностей белков, найденных с помощью PSI-BLAST. Представлено 5 последовательностей, раскраска ClustalX. Выравниание в формате fasta: mafft.fasta. ![]() Рисунок 2b. Множественное выравнивание, построенное программой mafft по списку последовательностей белков, найденных с помощью PSI-BLAST, с добавлением моего белка. Представлено 6 последовательностей, раскраска ClustalX. Выравниание в формате fasta: mafft_plus.fasta. Затем я сравнила полученные выравнивания (рисунки 1 и 2) друг с другом с помощью программы muscle, которая может построить выравнивание двух выравниваний. На рисунках 3а и 3b представлены результаты сравнения выравниваний без моего белка и с моим белком. Одинаковые в обоих выравниваниях колонки обведены черной рамкой и отмечены в разметке буквой H. ![]() Рисунок 3a. Сравнение множественных выравниваний, построенных программами muscle и mafft по списку последовательностей белков, найденных с помощью PSI-BLAST. Сверху расположено выравнивание muscle, снизу mafft. Одинаковые колонки в обоих выравниваниях обведены черной рамкой и отмечены символом H. Раскраска ClustalX. ![]() Рисунок 3b. Сравнение множественных выравниваний, построенных программами muscle и mafft по списку последовательностей белков, найденных с помощью PSI-BLAST, с добавлением моего белка. Сверху расположено выравнивание muscle, снизу mafft. Одинаковые колонки в обоих выравниваниях обведены черной рамкой и отмечены символом H. Раскраска ClustalX. При сравнении выравниваний можно отметить достаточно большие участки, на которых эти выравнивания полностью совпадают (например, с 73-211 и 372-531 позиции на рисунке 3а, 292-360 и 422-494 позиции на рисунке 3b). Основные различия выравниваний связаны с неодинаковой расстановкой гэпов. В некоторых местах действительно сложно определить, в каком именно месте произошла вставка или делеция. Например, на участках 248-256 и 495-501 (рисунок 3b). При этом в обоих выравниваниях хорошо видны вставки или делеции, произошедшие в отдельных последовательностях. Например, позиции 231-236 и 480-484 (вставка в Bacillus subtilis и Actinomadura sp.) и 73-81, 199-203 и 522-526 (вставка в Dictyostelium discoideum). В целом можно считать, что участки, совпавшие в обоих выравниваниях, представляют правильное выравнивание данных последовательностей. |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
© Наталия Кашко, 2015 |