К сожалению, изображение недоступно

PSI-BLAST. Множественное выравнивание

Для аминокислотной последовательности белка beta-lactamase domain-containing protein бактерии Cyanothece sp. PCC 8801 я составила семейство гомологов, пользуясь PSI-BLAST.

На каждой итерации PSI-BLAST выдает список находок, среди которых отмечает те находки, которых не было на предыдущей итерации. По умолчанию для следующей итерации используются находки с E-value < 0.005. Результаты поиска представлена в таблицах 1 и 2. Стабилизации результата очередной итерации (список находок выше порога совпадает со списком последовательностей, поданных на вход) достигнуто не было, поэтому я выполнила пять итераций. Во время первой итерации было найдено небольшое количество белков (41), при выполнении второй итерации количество находок резко увеличилось до 321, при выполнении третьей итерациии количесво находок так же очень значительно увеличилось до 905. В 4 и 5 итерациях увеличение количества находок стало не таким значительным и стало уменьшаться в последующих итерациях. В пятой итериции ступенька E-value между худшей "правильной" находкой (0.003) и "лучшей" неправильной (0.007) составляет 0.002. Ступенька очень маленькая, поэтому, скорее всего, эти находки не составляют семейство гомологичных белков. В связи с этим я изменила порог E-value отсечения хороших находок с 0.005 по умолчанию до 1e-6. Я взяла именно такой порог E-value, так как в находках первой итерации после белка с E-value = 7e-29 идет белок с E-value = 5e-05. Я решила, что это очень хорошая ступенька E-value между худшей "правильной" находкой и "лучшей" неправильной. Но с этим порогом тоже ничего хорошего не вышло. Я посмотрела на 2 итерацию с порогом E-value = 1e-6. Заметила, что после белка с E-value = 2e-142 идет белок с E-value = 4e-18. Больше нигде не было такой огромной ступени E-value. К тому же, белки выше белка с E-value = 2e-142 имеют одинаковое название, а после него все названия белков абсолютно различны. Поэтому я решила установить порог E-value = 1e-50. Это оказалось успешным. В таблице 3 представлены результаты этого поиска.

Последовательности найденных после пятой итерации белков с E-value = 0.005 в формате fasta.

Последовательности найденных после третьей итерации белков с E-value = 1e-50 в формате fasta.

Последовательности найденных после третьей итерации белков с начальным белком с идентификатором RNJ_CORGL с E-value = 1e-50 в формате fasta.

Таблица 1. Характеристика итераций с порогом E-value = 0.005.
№ итерации Количество находок лучше порога
(E-value < 0,005)
Количество находок хуже порога
(E-value > 0,005)
Появились ли новые находки на данной итерации?
1 41 82 -
2 321 390 Да
3 905 81 Да
4 963 57 Да
5 979 37 Да

Таблица 2. Характеристика находок с порогом E-value = 0.005.
№ итерации Находка Название белка Организм Процент идентичных остатков, % Max score E-value
1 Лучшая находка Ribonuclease J Synechocystis sp. PCC 6803 substr. Kazusa 74 907 0.0
1 Худшая находка Cleavage and polyadenylation specificity factor subunit 3 Bos taurus 33 43.9 0.003
2 Лучшая находка Ribonuclease J Synechocystis sp. PCC 6803 substr. Kazusa 73 721 0.0
2 Худшая находка Ribonuclease Z Lactobacillus casei ATCC 334 24 42.7 0.005
3 Лучшая находка Ribonuclease J 1 Staphylococcus aureus subsp. aureus MSSA476 43 588 0.0
3 Худшая находка Metallo-beta-lactamase domain-containing protein 1 Mus musculus 21 42.8 0.005
4 Лучшая находка Ribonuclease J 1 Staphylococcus saprophyticus subsp. saprophyticus ATCC 15305 43 538 0.0
4 Худшая находка Carbapenem-hydrolyzing beta-lactamase BlaB-2 Elizabethkingia meningoseptica 15 42.8 0.004
5 Лучшая находка Ribonuclease J 1 Staphylococcus saprophyticus subsp. saprophyticus ATCC 15305 43 485 2e-162
5 Худшая находка Coenzyme PQQ synthesis protein B; AltName Klebsiella pneumoniae 10 43.6 0.003

В таблицах 3 и 4 представлены результаты для находок с порогом E-value = 1e-50. Была получена стабилизация результата в третьей итерации (список находок выше порога совпадает со списком последовательностей, поданных на вход). В третьей итериции ступенька E-value между худшей "правильной" находкой (5e-142) и "лучшей" неправильной (8e-17) огоромна, причем в неправильных находках E-value постепенно снижается без скачков. Из этого можно сделать вывод, что действительно находки составляют семейство гомологичных белков.

Таблица 3. Характеристика итераций с порогом E-value = 1e-50.
№ итерации Количество находок лучше порога
(E-value < 0,005)
Количество находок хуже порога
(E-value > 0,005)
Появились ли новые находки на данной итерации?
1 28 95 -
2 30 542 Да
3 30 534 Нет

Таблица 4. Характеристика находок с порогом E-value = 1e-50.
№ итерации Находка Название белка Организм Процент идентичных остатков, % Max score E-value
1 Лучшая находка Ribonuclease J Synechocystis sp. PCC 6803 substr. Kazusa 74 907 0.0
1 Худшая находка Ribonuclease J Pyrococcus abyssi GE5 33 204 5e-57
2 Лучшая находка Ribonuclease J 1 Staphylococcus aureus subsp. aureus MSSA476 43 756 0.0
2 Худшая находка Uncharacterized protein MG423 homolog Mycoplasma pneumoniae M129 20 214 1e-59
3 Лучшая находка Ribonuclease J 1 Staphylococcus aureus subsp. aureus MSSA476 43 738 0.0
3 Худшая находка Ribonuclease J Pyrococcus abyssi GE5 426 32 5e-142

Затем я выбрала белок Ribonuclease J из организма Mycobacterium tuberculosis CDC1551 и провела поиск по нему с аналогичными параметрами. Результаты поиска полностью совпадают с поиском по белку beta-lactamase domain-containing protein бактерии Cyanothece sp. PCC 8801.

Для построения множественного выравнивания отобранных последовательностей я использовала программу muscle на сервере kodomo. Команда: muscle -in my_sequence.fasta -out out_sequence.fasta

При построении множественного выравнивания типичных представителей данного семейства я воспользовалась программой JalView ( JalView=> Edit => Remove redundancy и процент сходных аминокислотных остатков - 68%). В итоге осталось 10 последовательностей белков.

После этого я построила множественное выравнивание тех же десяти последовательностей при помощи программы mafft на сервере kodomo. Команда: mafft my_sequence1.fasta > out_sequence1.fasta

Затем я выровняла полученные два выравниванияс помощью программы muscle. Команда: muscle -profile -in1 out_sequence1.fasta -in2 out_sequence2.fasta -out out_sequence3.fasta. Далее я сравнивала полученные выравнивания в JalView. В выравнивании двух выравниваний одних и тех же последовательностей я отметила участки совпадения (те, на которых остатки в колонках первого выравнивания точно те же, что в колонках второго) символом S. Резуьтат можно увидеть на рис.1. Результат выравнивания выравниваний в jar-файле.

К сожалению, изображение недоступно

Рис.1 Выравнивание выравниваний. Первые 10 выровнены с помощью программы mafft, вторые десять - с помощью программы muscle. Кликните на изображение для просмотра.


Видно, что в блоках выравнивания выровнены одинаково, а в менее консервативных колонках и где встречаются гэпы выравнивания различаются.



© Князева Анастасия, 2015